Tháng trước, mô hình AI GameNGen của Google đã chỉ ra rằng các kỹ thuật khuếch tán hình ảnh tổng quát có thể được sử dụng để tạo ra một phiên bản Doom có thể chơi được . Hiện tại, các nhà nghiên cứu đang sử dụng một số kỹ thuật tương tự với một mô hình có tên là MarioVGG để xem liệu AI có thể tạo ra video hợp lý về Super Mario Bros. để phản hồi lại các thông tin đầu vào của người dùng hay không.
Kết quả của mô hình MarioVGG —có sẵn dưới dạng bài báo in trước do công ty AI liên quan đến tiền điện tử Virtuals Protocol xuất bản —vẫn hiển thị rất nhiều lỗi rõ ràng và quá chậm đối với bất kỳ thứ gì gần với trò chơi thời gian thực tại thời điểm này. Nhưng kết quả cho thấy ngay cả một mô hình hạn chế cũng có thể suy ra một số động lực vật lý và trò chơi ấn tượng chỉ bằng cách nghiên cứu một Bit dữ liệu video và đầu vào.
Các nhà nghiên cứu hy vọng đây là bước đầu tiên hướng tới "sản xuất và trình diễn một trình tạo trò chơi điện tử đáng tin cậy và có thể kiểm soát được" hoặc thậm chí có thể "thay thế hoàn toàn quá trình phát triển trò chơi và công cụ trò chơi bằng các mô hình tạo video" trong tương lai.
Để đào tạo mô hình của họ, các nhà nghiên cứu MarioVGG (người dùng GitHub erniechew và Brian Lim được liệt kê là những người đóng góp) đã bắt đầu với một tập dữ liệu công khai về trò chơi Super Mario Bros. chứa 280 "mức độ" dữ liệu đầu vào và hình ảnh được sắp xếp cho mục đích học máy (mức độ 1-1 đã được xóa khỏi dữ liệu đào tạo để hình ảnh từ mức độ đó có thể được sử dụng trong quá trình đánh giá). Hơn 737.000 khung hình riêng lẻ trong tập dữ liệu đó đã được "xử lý trước" thành các khối 35 khung hình để mô hình có thể bắt đầu tìm hiểu kết quả tức thời của các đầu vào khác nhau nói chung trông như thế nào.
Để "đơn giản hóa tình huống chơi trò chơi", các nhà nghiên cứu quyết định chỉ tập trung vào hai đầu vào tiềm năng trong tập dữ liệu: "chạy sang phải" và "chạy sang phải và nhảy". Ngay cả tập chuyển động hạn chế này cũng gây ra một số khó khăn cho hệ thống máy học, mặc dù bộ tiền xử lý phải nhìn lại trong một vài khung hình trước khi nhảy để xác định xem "chạy" có bắt đầu hay không và khi nào. Bất kỳ cú nhảy nào bao gồm các điều chỉnh giữa không trung (tức là nút "trái") cũng phải bị loại bỏ vì "điều này sẽ gây nhiễu cho tập dữ liệu đào tạo", các nhà nghiên cứu viết.
Sau khi xử lý trước (và khoảng 48 giờ đào tạo trên một card đồ họa RTX 4090), các nhà nghiên cứu đã sử dụng quy trình tích chập và khử nhiễu tiêu chuẩn để tạo ra các khung hình video mới từ hình ảnh trò chơi bắt đầu tĩnh và đầu vào văn bản (hoặc "chạy" hoặc "nhảy" trong trường hợp hạn chế này). Mặc dù các chuỗi được tạo này chỉ kéo dài trong một vài khung hình, nhưng khung hình cuối cùng của một chuỗi có thể được sử dụng làm khung hình đầu tiên của một chuỗi mới, khả thi để tạo ra các video trò chơi có độ dài bất kỳ mà vẫn hiển thị "lối chơi mạch lạc và nhất quán", theo các nhà nghiên cứu.
Ngay cả với tất cả những thiết lập này, MarioVGG vẫn không thực sự tạo ra video mượt mà không thể phân biệt được với trò chơi NES thực sự. Để hiệu quả, các nhà nghiên cứu đã giảm tỷ lệ khung hình đầu ra từ độ phân giải 256×240 của NES xuống còn 64×48. Họ cũng cô đọng 35 khung hình thời lượng video thành chỉ bảy khung hình được tạo ra được phân phối "ở các khoảng thời gian đồng đều", tạo ra video "trò chơi" trông thô hơn nhiều so với đầu ra trò chơi thực tế.
Bất chấp những hạn chế đó, mô hình MarioVGG vẫn đang vật lộn để tiếp cận với việc tạo video theo thời gian thực, tại thời điểm này. RTX 4090 duy nhất mà các nhà nghiên cứu sử dụng mất sáu giây để tạo ra một chuỗi video sáu khung hình, chỉ chiếm hơn nửa giây video, ngay cả ở tốc độ khung hình cực kỳ hạn chế. Các nhà nghiên cứu thừa nhận điều này "không thực tế và thân thiện với các trò chơi video tương tác" nhưng hy vọng rằng các tối ưu hóa trong tương lai về lượng tử hóa trọng lượng (và có lẽ sử dụng nhiều tài nguyên điện toán hơn) có thể cải thiện tốc độ này.
Tuy nhiên, với những giới hạn đó, MarioVGG có thể tạo ra một số video khá đáng tin cậy về Mario chạy và nhảy từ một hình ảnh tĩnh bắt đầu, tương tự như trình tạo trò chơi Genie của Google . Mô hình thậm chí có thể "học vật lý của trò chơi hoàn toàn từ các khung hình video trong dữ liệu đào tạo mà không cần bất kỳ quy tắc cứng nào được mã hóa rõ ràng", các nhà nghiên cứu viết. Điều này bao gồm suy ra các hành vi như Mario ngã khi anh ta chạy khỏi mép vách đá (với lực hấp dẫn đáng tin cậy) và (thường là) dừng chuyển động về phía trước của Mario khi anh ta ở gần một chướng ngại vật, các nhà nghiên cứu viết.
Trong khi MarioVGG tập trung vào việc mô phỏng chuyển động của Mario, các nhà nghiên cứu phát hiện ra rằng hệ thống có thể tạo ra ảo giác về những chướng ngại vật mới cho Mario khi video cuộn qua một cấp độ tưởng tượng. Các chướng ngại vật này "phù hợp với ngôn ngữ đồ họa của trò chơi", các nhà nghiên cứu viết, nhưng hiện tại không thể bị ảnh hưởng bởi lời nhắc của người dùng (ví dụ, đặt một cái hố trước mặt Mario và bắt anh ta nhảy qua).
Tuy nhiên, giống như tất cả các mô hình AI xác suất, MarioVGG có xu hướng gây khó chịu là đôi khi đưa ra các kết quả hoàn toàn vô dụng. Đôi khi điều đó có nghĩa là chỉ cần bỏ qua các lời nhắc nhập liệu của người dùng ("chúng tôi quan sát thấy văn bản hành động nhập liệu không được tuân thủ mọi lúc", các nhà nghiên cứu viết). Những lần khác, điều đó có nghĩa là ảo giác các lỗi hình ảnh rõ ràng: Mario đôi khi hạ cánh bên trong chướng ngại vật, chạy qua chướng ngại vật và kẻ thù, nhấp nháy các màu khác nhau, co lại/lớn lên từ khung hình này sang khung hình khác hoặc biến mất hoàn toàn trong nhiều khung hình trước khi xuất hiện trở lại.
Một video đặc biệt vô lý được các nhà nghiên cứu chia sẻ cho thấy Mario rơi qua cây cầu, trở thành Cheep-Cheep, sau đó bay trở lại qua các cây cầu và biến thành Mario một lần nữa. Đó là loại điều chúng ta mong đợi thấy từ Wonder Flower, không phải video AI của Super Mario Bros.
Các nhà nghiên cứu cho rằng việc đào tạo lâu hơn trên "dữ liệu trò chơi đa dạng hơn" có thể giúp giải quyết những vấn đề quan trọng này và giúp mô hình của họ mô phỏng nhiều hơn là chỉ chạy và nhảy không thể tránh khỏi sang bên phải. Tuy nhiên, MarioVGG vẫn là bằng chứng thú vị cho thấy ngay cả dữ liệu đào tạo và thuật toán hạn chế cũng có thể tạo ra một số mô hình khởi đầu tốt cho các trò chơi cơ bản.
Câu chuyện này ban đầu xuất hiện trên Ars Technica .