[Giới thiệu] Nvidia đã cho phép trí tuệ nhân tạo (AI) học các thao tác điều khiển trò chơi thông thường chỉ bằng cách "xem các luồng phát trực tiếp". Thế giới ảo đã trở thành hacker trí tuệ vật lý; việc xem 40.000 giờ phát trực tiếp cho phép nó học được hầu hết mọi trò chơi!
Như chúng ta đã biết, lý do khiến hệ thống FSD của Tesla được coi là một kiệt tác là nhờ logic cốt lõi "từ đầu đến cuối" của nó.
Chiếc xe không còn phụ thuộc vào các bản đồ hoặc cảm biến có độ chính xác cao, cứng nhắc nữa, mà thay vào đó hoạt động như một người lái xe dày dạn kinh nghiệm:
Mắt tập trung nhìn đường (thông tin thị giác), chân đặt trên bàn đạp ga, tay cầm vô lăng (hành động đầu ra).
Vậy câu hỏi đặt ra là: điều gì sẽ xảy ra nếu chúng ta áp dụng logic này vào một kịch bản trò chơi và để trí tuệ nhân tạo học hỏi từ đó?
Nguyên tắc hoàn toàn giống nhau! Trước đây, khi AI chơi game, nó phải dựa vào việc đọc dữ liệu nền hoặc thậm chí "gian lận" để tìm ra vị trí của kẻ thù.
Nhưng người chơi thực sự thì như thế nào?
Chúng ta nhìn chằm chằm vào các điểm ảnh trên màn hình (nhận thức thị giác) , bộ não hoạt động, và các ngón tay gõ trên bàn phím hoặc nhấn bộ điều khiển (thao tác) .
Ví dụ, khả năng chuyển đổi màn hình của Faker nằm trong số những phản xạ nhanh nhất của con người.
Từ màn hình trực tiếp đến điều khiển bằng chuột và bàn phím, đây chính là "FSD" của thế giới game.
Nvidia vừa mới thực hiện một chiêu trò cực kỳ tàn nhẫn!
Họ đã cho ra mắt một mẫu xe mới có tên NitroGen , hoàn toàn vượt ngoài mong đợi.
- Địa chỉ dự án: https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf
Mô hình này không lớn lên bằng việc đọc mã lập trình game; nó lớn lên bằng cách ngồi lì trên YouTube và Twitch:
Tôi đã xem 40.000 giờ chơi game với điều khiển bằng tay cầm!
Nó giống như một "game thủ đám mây" cực kỳ chăm chỉ, học cách di chuyển và sử dụng các đòn tấn công cơ bản trong nhiều trò chơi khác nhau bằng cách quan sát cách người khác chơi.
Nó có thể xử lý tốt cả game nhập vai (RPG) và game đi cảnh màn hình ngang.
Bạn có thể hỏi: Làm sao tôi có thể học cách sử dụng nó chỉ bằng cách xem video? Tôi không biết người phát trực tiếp đã nhấn nút nào.
Điều này khiến người ta phải thán phục sự sáng tạo của các nhà nghiên cứu Nvidia.
Họ đã tìm kiếm kỹ càng các video trên YouTube và Twitch có nội dung về "lớp phủ điều khiển" .
Đúng vậy, đó là loại video mà người phát trực tiếp đặt một bộ điều khiển nhỏ ở góc màn hình, và khi họ nhấn một nút, bộ điều khiển trên màn hình sẽ sáng lên.
NitroGen đã xem xét kỹ lưỡng 40.000 giờ video ghi lại, quan sát những gì xảy ra trong trò chơi (chẳng hạn như Link vung kiếm) và nút nào trên tay cầm điều khiển ở góc màn hình sáng lên (chẳng hạn như nhấn nút X).
Nó giống như một người muốn học guitar xem hàng chục nghìn video buổi hòa nhạc mà không nhìn vào bản nhạc, và bằng cách nào đó lại có thể khớp "cảm nhận" với "chuyển động ngón tay"!
Chỉ có trí tuệ nhân tạo mới có thể làm được công việc này.
Hãy từ bỏ chuyên môn hóa và trở thành một người đa năng toàn diện.
Trước đây, trí tuệ nhân tạo trong game thường được coi là "chuyên gia"; người có thể chơi "Honor of Kings" chắc chắn sẽ không thể chơi "Super Mario".
Nhưng điểm bán hàng chính của NitroGen là tính "đa năng".
Nó đã học hỏi từ hơn 1.000 trò chơi khác nhau.
Điều này có thể có nghĩa là nó đã phát triển một loại "trực giác chơi game" !
Cũng giống như khi con người chúng ta chơi game, nếu bạn đã từng chơi một trò chơi trí tuệ như Elden Ring, và sau đó thử một trò chơi hành động mới như Black Myth: Wukong, ngay cả khi bạn chưa từng thấy nó trước đây, bạn có thể sẽ biết rằng cần điều khiển bên trái dùng để chạy và nút bên phải dùng để tấn công.
Dữ liệu thử nghiệm cho thấy khi NitroGen được đưa vào một trò chơi mới mà nó chưa từng thấy trước đây , nó hoạt động tốt hơn các mô hình được huấn luyện từ đầu tới 52% .
Dù là game nhập vai hành động, game đi cảnh hay game roguelike, tất cả đều dễ dàng làm quen và chơi.
Bước tiếp theo: Từ Hyrule đến thế giới thực
Phải chăng động thái của Nvidia chỉ đơn giản là tạo ra một NPC mạnh hơn để chơi cùng chúng ta?
Tham vọng của Nvidia đã vượt xa tầm nhìn chiến lược của họ!
Hãy cùng điểm qua hiệu năng gần đây của trí tuệ nhân tạo (AI) trong game.
Nghiên cứu mới nhất của The Decoder đã phát hiện ra rằng trí tuệ nhân tạo (AI) hiện thậm chí đang bắt đầu sở hữu khả năng suy luận phức tạp.
Các nhà nghiên cứu đã tiến hành một "bài kiểm tra sức chịu đựng" độc đáo về khả năng suy luận của các mô hình quy mô lớn hàng đầu bằng cách sử dụng một câu đố đổi màu kinh điển từ trò chơi The Legend of Zelda.
Bài kiểm tra yêu cầu mô hình lập kế hoạch sáu bước để giải câu đố mà không cần kết nối internet, chỉ dựa trên ảnh chụp màn hình.
Kết quả cho thấy rõ sự khác biệt giữa các mô hình:
- GPT-5.2-Thinking thể hiện sự vượt trội đáng kinh ngạc, nhanh chóng và chính xác chiếm ưu thế trên toàn bộ lĩnh vực;
- Mặc dù Google Gemini 3 Pro có thể giải quyết vấn đề, nhưng đôi khi nó bị mắc kẹt trong một vòng lặp thử và sai kéo dài, với văn bản lý giải có thể dài tới 42 trang.
- Tuy nhiên, Claude Opus 4.5 lại gặp khó khăn trong việc hiểu hình ảnh và cần đến sự hỗ trợ của các công thức toán học.
Tác giả cho rằng rằng khả năng suy luận mạnh mẽ này, kết hợp với các công nghệ tác nhân tự động như NVIDIA NitroGen, báo trước những điều sau:
Kỷ nguyên con người viết hướng dẫn trò chơi và tài liệu phần mềm đang dần kết thúc; trí tuệ nhân tạo (AI) sẽ thay đổi hoàn toàn cách chúng ta tiếp nhận thông tin hướng dẫn.
Ví dụ, trong trò chơi The Legend of Zelda, những câu đố đổi màu đòi hỏi hơn sáu bước dự đoán giờ đây có thể được giải quyết bởi các mô hình AI dễ dàng như giải một bài toán.
NitroGen còn tiến xa hơn nữa, vì nó không chỉ có thể được sử dụng để chơi game mà còn để ghi lại và xem lại quá trình chơi game .
Hãy tưởng tượng một tương lai nơi trí tuệ nhân tạo chỉ cần chơi một lần và có thể dễ dàng viết ra "hướng dẫn đạt cúp bạch kim" cho bạn, hoặc thậm chí tự động sửa lỗi game. Bạn còn mong muốn gì hơn nữa?
(Rất có khả năng tựa game "Black Myth: Zhong Kui" của Game Science sẽ tích hợp công nghệ trí tuệ nhân tạo.)
Nhưng tham vọng thực sự của Huang lại nằm ở mã nguồn: NitroGen được xây dựng trên nền tảng GR00T (mẫu cơ bản của robot) của NVIDIA.
Anh chàng này có tham vọng rất lớn!
- Trong trò chơi, nhân vật học cách: nhìn thấy vách đá -> biết mình sẽ rơi xuống -> điều khiển tay cầm để nhảy qua.
- Trên thực tế, điều đó tương ứng với: nhìn thấy vũng nước trên mặt đất -> biết rằng bạn sẽ sụp đổ-> điều khiển chân robot bước qua vũng nước.
Thế giới ảo thực chất là "sân tập" hiệu quả nhất trong thế giới thực.
Nvidia đang sử dụng hàng triệu lần thử nghiệm và sai sót trong các trò chơi để tạo ra một "bộ não tổng quát" có khả năng xử lý mọi loại hỗn loạn cho những robot sẽ xuất hiện trong nhà chúng ta trong tương lai.
Có lẽ một ngày nào đó, khi bạn trầm trồ trước kỹ năng tuyệt vời của đồng đội, người ngồi phía bên kia màn hình có thể không phải là con người.
Thực ra đó là một con robot thật đang cầm tay cầm điều khiển và chơi game cùng bạn!
Trò chơi là hiện thực
Trò chơi điện tử đã phát triển từ một công cụ đơn giản để kiểm tra trí tuệ nhân tạo thành một sân tập luyện cho trí thông minh thể chất.
Đây không chỉ là chiến thắng cho trí tuệ nhân tạo trong game, mà còn là bước ngoặt quan trọng giúp công nghệ robot vượt qua "Nghịch lý Moravek".
Một bước nhảy vọt từ "não bộ" sang "cơ thể"
Trong thập kỷ qua, lĩnh vực trí tuệ nhân tạo đã có một bước tiến vượt bậc, từ trí tuệ nhận thức sang trí tuệ tri giác.
Tuy nhiên, mặc dù các mô hình ngôn ngữ lớn có thể viết thơ, lập trình và thậm chí vượt qua kỳ thi tư cách, chúng thường tỏ ra vụng về khi đối diện thế giới vật chất.
Một trí tuệ nhân tạo vượt qua được bài kiểm tra Turing có thể vẫn không điều khiển được cánh tay robot thực hiện nhiệm vụ đơn giản nhất là "đặt một chiếc cốc vào máy rửa chén".
Đây là "Nghịch lý Morawieck" nổi tiếng: Đối với máy tính, việc hiện thực hóa trí thông minh bậc cao như suy luận logic chỉ cần rất ít sức mạnh tính toán, trong khi việc hiện thực hóa trí thông minh bậc thấp như nhận thức và chuyển động lại đòi hỏi nguồn lực tính toán khổng lồ.
Trí tuệ thể hiện hướng đến giải quyết vấn đề này. Nó đòi hỏi các tác nhân thông minh không chỉ "suy nghĩ" mà còn phải có "cơ thể" và có khả năng tương tác vật lý với hoàn cảnh.
Từ lâu, sự phát triển của trí tuệ thể hiện đã bị hạn chế bởi hai nút thắt chính:
- Sự khan hiếm dữ liệu
Internet chứa hàng nghìn tỷ dữ liệu văn bản, nhưng lại thiếu một lượng dữ liệu robot tương đương với các thẻ hành động chính xác.
- Khó khăn trong việc khái quát hóa
Các thuật toán học tăng cường (RL) truyền thống thường chỉ hoạt động tốt trong hoàn cảnh cụ thể (chẳng hạn như bàn cờ Go hoặc dây chuyền lắp ráp nhà máy cụ thể), và mô hình sẽ thất bại khi hoàn cảnh thay đổi dù chỉ một chút.
Trò chơi như một mô phỏng thực tế
Năm 2025, chúng ta đã chứng kiến một hướng đi hoàn toàn mới để vượt qua những trở ngại đã nêu trên: sử dụng trò chơi điện tử như một cầu nối với thế giới vật lý .
Trò chơi cung cấp một hoàn cảnh hình ảnh phong phú, các quy tắc vật lý phức tạp và mục tiêu nhiệm vụ rõ ràng, đồng thời mang tính chất kỹ thuật số và có mở rộng. Quan trọng hơn, vòng lặp khép kín "nhận thức-quyết định-hành động" trong thế giới trò chơi hoàn toàn tương đồng với vòng lặp của một robot vật lý.
Để các tác nhân thông minh có hình thể tồn tại trong thế giới thực phức tạp và khó lường, chỉ riêng phản xạ có điều kiện là chưa đủ.
Nó phải sở hữu khả năng lập luận và lập kế hoạch độ sâu.
Thử thách ghép hình quả cầu màu Zelda
Câu đố này xuất phát từ sê-ri game Legend of Zelda; luật chơi có vẻ đơn giản, nhưng thực chất lại đòi hỏi rất nhiều tư duy logic.
- Bối cảnh
Một lưới gồm các hình cầu màu đỏ và xanh lam.
- luật lệ
Nhấn một hình cầu sẽ thay đổi màu sắc của chính hình cầu đó và các hình cầu phía trên, phía dưới, bên trái và bên phải (từ đỏ sang xanh lam, từ xanh lam sang đỏ).
- Mục tiêu
Hãy làm cho tất cả các quả cầu chuyển sang màu xanh lam bằng cách nhấn sê-ri các nút.
Về bản chất, câu đố này là một bài toán thỏa mãn ràng buộc hoặc một bài toán lý thuyết đồ thị.
Sự phức tạp của nó nằm ở sự bùng nổ tổ hợp của không gian trạng thái và tính không thể đảo ngược của các thao tác.
Người chơi không thể chỉ tập trung vào lợi nhuận của nước đi hiện tại; họ phải dự đoán những thay đổi trong thế trận ở những nước đi tiếp theo.
Điều này đòi hỏi khả năng lập kế hoạch hướng tới tương lai cực kỳ mạnh mẽ, tức là xây dựng một "cây quyết định" trong tâm trí và suy diễn kết quả từ các nhánh khác nhau. Đây chính xác là kiểu tư duy "Hệ thống 2" được định nghĩa trong tâm lý học nhận thức của con người - tư duy chậm rãi, bình tĩnh và logic.
Theo bài đánh giá độ sâu của The Decoder:
Các mô hình AI hàng đầu hiện nay đã cho thấy sự khác biệt đáng kể giữa các thế hệ về đối diện thách thức này, điều này phản ánh trực tiếp tiềm năng của chúng như là "bộ não" của một tác nhân thông minh có hình thể.
Thành công của GPT-5.2-Thinking không chỉ nằm ở việc giải quyết được bài toán hóc búa, mà còn ở việc chứng minh xu hướng nội hóa thuật toán.
Ví dụ, khi robot đối diện một chiếc bàn chất đầy đồ đạc lộn xộn, nó có thể tự nhẩm trong đầu, giống như giải một câu đố trong game Zelda: "Nếu mình lấy cuốn sách ở dưới cùng trước, chiếc cốc ở trên sẽ sụp đổ; vậy nên mình phải di chuyển chiếc cốc trước."
Khả năng này là chìa khóa cho quá trình chuyển đổi từ "máy móc tự động" sang "các tác nhân thông minh tự chủ".
Nếu GPT-5.2 giải quyết được vấn đề "cần suy nghĩ như thế nào", thì mô hình NitroGen của NVIDIA giải quyết được vấn đề "làm thế nào để thực hiện".
Sự ra mắt của NitroGen đánh dấu sự khởi đầu của "thời điểm ImageNet" trong lĩnh vực học máy robot, tận dụng dữ liệu quy mô internet để huấn luyện các chiến lược điều khiển chuyển động tổng quát.
Đội ngũ NitroGen đã đề xuất một chiến lược "khai thác dữ liệu " cực kỳ khéo léo : sử dụng các lớp phủ đầu vào thường thấy trong phát trực tiếp trò chơi.
Điểm xuất sắc của chiến lược này nằm ở khả năng chuyển đổi tức thời dữ liệu video không được giám sát thành các cặp hành động-hình ảnh được giám sát.
NVIDIA đã sử dụng công nghệ này để xây dựng dữ liệu NitroGen, chứa 40.000 giờ dữ liệu bao gồm hơn 1.000 trò chơi .
Đây là quy mô chưa từng có trong lĩnh vực học máy robot.
Lớp mô phỏng: Mô hình thế giới đóng vai trò như "hacker" của robot.
Trong phim Hacker, Neo học võ thuật trong thế giới ảo.
Đối với robot, các mô hình thế giới chính là "ma trận" của chúng.
Nếu robot có thể trải qua hàng nghìn lần thử và sai mỗi giây trong một thế giới ảo cực kỳ chân thực, tốc độ tiến hóa của chúng sẽ vượt xa giới hạn của thời gian vật lý.
Dựa trên phân tích trên, con đường hiện thực hóa một tác nhân thông minh tổng quát thông qua trò chơi không chỉ khả thi mà còn đang bắt đầu hình thành.
Con đường này có thể được tóm tắt như sau: "Học cách điều khiển trong game, học vật lý trong mô phỏng, và học cách thích nghi trong thực tế."
Các tác nhân thông minh đa năng trong tương lai chắc chắn sẽ có kiến trúc phân lớp:
- Cấp độ cao nhất (não bộ)
Một mô hình suy luận tương tự như GPT-5.2 chịu trách nhiệm xử lý việc lập kế hoạch dài hạn, giải các câu đố logic và hiểu các chỉ dẫn của con người.
- Lớp giữa (tiểu não)
Tương tự như mô hình chiến lược tổng quát của NitroGen, nó chịu trách nhiệm chuyển đổi các chỉ dẫn cấp cao thành các quỹ đạo chuyển động cụ thể, sử dụng "trực giác chuyển động" thu được từ lượng lớn dữ liệu video.
- Lớp bên dưới (tủy sống)
Bộ điều khiển toàn thân tần số cao dựa trên GR00T chịu trách nhiệm về mô-men xoắn đầu ra cụ thể của động cơ và duy trì sự cân bằng.
Mặc dù triển vọng tươi sáng, vẫn còn một số vấn đề then chốt cần được giải quyết:
- Thiếu phản hồi xúc giác
Trò chơi và video chủ yếu dựa vào hình ảnh và âm thanh, thiếu phản hồi xúc giác. NitroGen không thể học được "trọng lượng của một vật" hay "độ trơn trượt của bề mặt".
- Vận hành độ chính xác cao
Các mô hình chuyển động thị giác hiện tại hoạt động tốt với các chuyển động thô (như đi bộ và cầm nắm các vật thể lớn), nhưng vẫn còn thiếu sót trong các thao tác đòi hỏi độ chính xác ở mức milimet (như xâu kim và lắp ráp chính xác). Điều này có thể đòi hỏi các bộ mã hóa hình ảnh có độ phân giải cao hơn hoặc các chiến lược gia công tinh xảo chuyên biệt.
- An toàn và Đạo đức
Khi robot có khả năng lập kế hoạch tự động, làm thế nào chúng ta có thể đảm bảo rằng hàm mục tiêu của chúng phù hợp với các giá trị của con người? Lệnh "rửa bát" không nên khiến robot "đập vỡ bát đĩa và đổ hết nước trong bồn rửa càng nhanh càng tốt".
Trò chơi điện tử ngày nay không chỉ đơn thuần là để giải trí; chúng là cái nôi mà con người đã xây dựng cho trí tuệ nhân tạo.
Trong cái nôi này, trí tuệ nhân tạo đã học được cách lập kế hoạch (Zelda), điều khiển (NitroGen) và các định luật vật lý của thế giới (Cosmos).
Khi chúng rời khỏi nôi và nhập vào cơ thể của Dự án GR00T, chúng ta sẽ chứng kiến sự ra đời của trí tuệ vật lý thực sự.
Đây không chỉ là một chiến thắng cho công nghệ, mà còn là sự thể hiện tối thượng của nhiều khả năng khác nhau để nhân loại có thể đóng góp trở lại cho thế giới thực bằng cách tạo ra các thế giới ảo.
Tham khảo:
https://the-decoder.com/a-zelda-puzzle-proves-ai-models-can-crack-gaming-riddles-that-require-thinking-six-moves-ahead/
https://the-decoder.com/nvidia-wants-to-create-universal-ai-agents-for-all-worlds-with-nitrogen/
Bài viết này được trích từ tài khoản WeChat chính thức "New Intelligence" , do Ding Hui biên tập và được đăng tải với sự cho phép của 36Kr.



