遊戲AI來了,英偉達新模型看直播學會所有遊戲,GPT-5.2秒殺塞爾達

【導讀】英偉達讓AI僅靠「看直播」就學會了通用遊戲操作。虛擬世界已成為物理智能的黑客帝國,看4萬小時直播學會幾乎所有遊戲!

眾所周知,特斯拉的FSD之所以被奉為神作,核心就在於它那套「端到端」的硬核邏輯。

車子不再依賴死板的高精地圖,也不依賴傳感器,而是像個老司機一樣:

眼睛看著路(視覺輸入),腳下直接踩油門、手裡直接打方向(行動輸出)。

那麼問題來了,如果把這套邏輯搬到遊戲場景裡讓AI學習,會發生什麼?

道理完全是一樣的!以前的AI玩遊戲,還得靠讀後臺數據、甚至得「開掛」才能知道敵人在哪。

但真正的人類玩家是咋樣的?

是我們盯著屏幕上的像素(視覺),大腦一轉,手指直接噼裡啪啦敲鍵盤、按手柄(操作)

比如Faker的切屏,屬於人類的頂尖反應速度了。

從畫面直接到鼠標鍵盤的操作,這就是遊戲界的「FSD」。

英偉達最近就整了這麼個狠活!

發佈了一個叫NitroGen的新模型,它完全不按套路出牌。

  • 項目地址:https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf

這個模型不是靠讀遊戲代碼長大的,而是蹲在YouTube和Twitch上:

硬生生「看」了4萬個小時帶有手柄畫面的遊戲實況!

它就像個極其好學的「雲玩家」,通過觀察人類怎麼操作,直接學會了在各種遊戲裡該怎麼走位、怎麼平A。

不管是RPG還是橫版過關遊戲,它都能拿捏。

你可能會問:光看視頻咋學會操作?我又不知道主播按了哪個鍵。

這就不得不佩服英偉達研究員的腦洞了。

他們專門挖掘了YouTube和Twitch上那些帶有「控制器疊加畫面」的視頻。

對,就是那種主播在屏幕角落放個小手柄,按哪個鍵,畫面上的手柄也會跟著亮的視頻。

NitroGen就盯著這4萬個小時的視頻素材,一邊看遊戲畫面裡發生了什麼(比如林克揮了一劍),一邊看角落裡的手柄哪個鍵亮了(比如按了X鍵)。

這就像是一個想學吉他的人,不看樂譜,而是把幾萬場演唱會視頻裡吉他手的指法特寫全看了一遍,硬生生把「聽覺」和「手指動作」給對應上了!

也只有AI能幹這活了。

拒絕「偏科」,做個通用的六邊形戰士

以前的遊戲AI往往是「專才」,會玩《王者榮耀》的絕對不會玩《超級馬里奧》。

但NitroGen主打的就是一個「通才」。

它學習了超過1000款不同的遊戲。

這可能意味著它練就了一種「遊戲直覺」!

就像我們人類玩遊戲一樣,你只要玩過魂遊,比如《艾爾登法環》之類的,再上手一款新的動作遊戲《黑神話:悟空》,哪怕沒見過,你也大概知道左搖桿是跑,右邊按鍵是打。

測試數據顯示,當把NitroGen丟進一款它從未見過的新遊戲裡時,它的表現比那些從零訓練的模型強了52%

不管是動作RPG、平臺跳躍,還是Roguelike,它都能迅速上手。

下一步:從海拉魯大陸走向現實世界

英偉達這一波操作,僅僅是為了造一個更強的NPC陪我們玩嗎?

格局小了,英偉達的野心更大!

先來看看最近AI在遊戲中的表現。

The Decoder最新的研究發現,現在的AI甚至已經開始具備複雜的推理能力。

研究者通過一個《塞爾達傳說》中的經典變色謎題,對當前頂尖大模型的推理能力進行了一場別開生面的「壓力測試」。

測試要求模型在不聯網的情況下,僅憑截圖規劃出六步操作以解開謎題。

結果顯示,模型間的差距一目瞭然:

  • GPT-5.2-Thinking展現了驚人的統治力,快速且準確地秒殺全場;
  • 谷歌的Gemini 3 Pro雖然也能解題,但有時會陷入冗長的試錯循環,推理文本竟長達42頁;
  • 而Claude Opus 4.5則在視覺理解上翻車,需藉助數學公式輔助。

作者認為:這種強大的推理能力結合英偉達NitroGen等自主智能體技術,預示著:

人類撰寫遊戲攻略和軟件文檔的時代即將終結,AI將徹底改變我們獲取指導信息的方式。

比如在《塞爾達傳說》裡那種需要預判6步以上的變色謎題,現在的AI模型已經能像解數學題一樣解開了。

而NitroGen的潛力更進一步,它不僅能玩,還能記錄和覆盤

想象一下,未來AI玩一遍遊戲,順手就能把「白金攻略」給你寫出來,甚至把遊戲裡的Bug自動修了,這還要啥自行車?

(感覺遊戲科學的《黑神話:鍾馗》大概率要上AI技術了)

但老黃真正的野心,其實藏在代碼裡:NitroGen是基於英偉達的GR00T(機器人基礎模型)構建的。

這波野心很大!

  • 在遊戲裡,它學的是:看到懸崖->知道會掉下去->控制手柄跳過去。
  • 在現實裡,它對應的就是:看到地上的水坑->知道會滑倒->控制機器人的腿跨過去。

虛擬世界,其實就是物理世界最高效的「練兵場」。

英偉達正在用遊戲裡的千萬次試錯,為未來走進我們家裡的機器人,打造一個能應對一切混亂的「通用大腦」。

或許有一天,當你感嘆隊友操作太神的時候,屏幕對面坐著的,真的可能不是人。

而是一個真的機器人拿著手柄在和你打遊戲!

遊戲即現實

視頻遊戲已經從單純的AI測試基準,演變為物理智能的訓練場。

這不僅是遊戲AI的勝利,更是機器人技術跨越「莫拉維克悖論」的關鍵轉折點。

從「大腦」到「身體」的跨越

在過去十年中,人工智能領域經歷了從感知智能到認知智能的飛躍。

然而,儘管大語言模型能夠撰寫詩歌、編寫代碼甚至通過律師資格考試,它們在面對物理世界時卻往往顯得笨拙不堪。

一個能通過圖靈測試的AI,可能無法控制機械臂完成最簡單的「把杯子放進洗碗機」的任務。

這就是著名的「莫拉維克悖論」:對計算機而言,實現邏輯推理等高階智慧只需要很少的計算能力,而實現感知、運動等低階智慧卻需要巨大的計算資源。

具身智能旨在解決這一問題,它要求智能體不僅要「思考」,還要擁有「身體」,能夠與環境進行物理交互。

長期以來,具身智能的發展受限於兩大瓶頸:

  1. 數據匱乏

互聯網上充斥著萬億級別的文本數據,卻缺乏同等規模的、帶有精確動作標籤的機器人數據。

  1. 泛化困難

傳統的強化學習(RL)算法通常只能在特定的環境(如圍棋棋盤或特定的工廠流水線)中表現優異,一旦環境發生微小變化,模型就會失效。

遊戲作為現實的模擬器

2025年,我們看到了一條解決上述瓶頸的全新路徑:利用視頻遊戲作為通向物理世界的橋樑

遊戲提供了豐富的視覺環境、複雜的物理規則和明確的任務目標,且天然具備數字化、可擴展的特性。更重要的是,遊戲世界中的「感知-決策-行動」閉環與物理機器人完全同構。

具身智能體要在複雜且不可預測的現實世界中生存,僅靠條件反射式的反應是不夠的。

它必須具備深度的推理與規劃能力。

塞爾達變色球謎題的挑戰

該謎題源自《塞爾達傳說》系列遊戲,規則看似簡單實則極其考驗邏輯:

  • 場景

一個由紅色和藍色球體組成的網格。

  • 規則

點擊一個球體,會改變其自身以及上下左右相鄰球體的顏色(紅變藍,藍變紅)。

  • 目標

通過一系列點擊,將所有球體變為藍色。

這一謎題的本質是一個約束滿足問題或圖論問題。

其複雜性在於狀態空間的組合爆炸和操作的不可逆性。

玩家不能只關注當前這一步的收益,必須預判未來幾步的狀態變化。

這需要極強的前瞻性規劃能力,即在腦海中構建一棵「決策樹」,並推演不同分支的結果,這正是人類認知心理學中定義的「系統2」思維——慢速、從容、有邏輯的思考。

根據The Decoder的深度評測:

當前最頂尖的AI模型在面對這一挑戰時表現出了顯著的代際差異,這直接反映了它們作為具身智能體「大腦」的潛力。

GPT-5.2-Thinking的成功不僅在於它解出了謎題,更在於它展示了一種算法內化的趨勢。

例如,當機器人面對一個堆滿雜物的桌子時,它能夠像解決塞爾達謎題一樣,在「腦海」中預演:「如果我先拿底下的書,上面的杯子會倒;所以我必須先移開杯子。」

這種能力是實現從「自動化機器」向「自主智能體」跨越的關鍵。

如果說GPT-5.2解決了「想什麼」,那麼英偉達的NitroGen模型則解決了「怎麼做」。

NitroGen的發佈標誌著機器人學習進入了「ImageNet時刻」,利用互聯網規模的數據來訓練通用的運動控制策略。

NitroGen團隊提出了一種極其巧妙的「數據挖掘」策略:利用遊戲直播中常見的輸入疊加層

這一策略的精妙之處在於,它將原本「無監督」的視頻數據瞬間轉化為了「有監督」的「視覺-動作」對。

英偉達利用這一技術,構建了包含40,000小時、覆蓋1000多種遊戲的NitroGen數據集。

這在機器人學習領域是前所未有的規模。

仿真層:世界模型作為機器人的「黑客帝國」

在電影《黑客帝國》中,尼奧在虛擬世界中學習功夫。

而對於機器人而言,世界模型(World Models)就是它們的「矩陣」。

若機器人能在極其逼真的虛擬世界中每秒經歷數千次試錯,其進化速度將遠超物理時間的限制。

綜合上述分析,通過遊戲實現通用智能體的路徑不僅可行,而且已經初具雛形。

這條路徑可以概括為:「在遊戲中學會控制,在仿真中學會物理,在現實中學會適應。」

未來的通用智能體必然是分層架構的:

  • 頂層(大腦)

類似GPT-5.2的推理模型,負責處理長程規劃、邏輯謎題和人類指令理解。

  • 中層(小腦)

類似NitroGen的通用策略模型,負責將高層指令翻譯成具體的運動軌跡,利用海量視頻數據獲得的「運動直覺」。

  • 底層(脊髓)

基於GR00T的高頻全身控制器,負責具體的電機力矩輸出和平衡維持。

儘管前景光明,但仍有幾個關鍵問題亟待解決:

  1. 觸覺反饋的缺失

遊戲和視頻主要是視覺和聽覺的,缺乏觸覺。NitroGen學不到「物體有多重」或「表面有多滑」。

  1. 高精度操作

目前的視覺-動作模型在粗糙動作(如走路、抓取大物體)上表現良好,但在需要毫米級精度的操作(如穿針引線、精密裝配)上仍有不足。這可能需要更高分辨率的視覺編碼器或專門的精細操作策略。

  1. 安全性與倫理

當機器人具備了自主規劃能力,如何確保其目標函數與人類價值觀對齊?「洗碗」指令不應導致機器人「打破盤子以最快速度清空洗碗池」。

遊戲不再僅僅是娛樂,它們是人類為AI構建的搖籃。

在這個搖籃裡,AI學會了規劃(Zelda),學會了控制(NitroGen),學會了世界的物理法則(Cosmos)。

當它們走出搖籃,進入Project GR00T的軀體時,我們將見證真正的物理智能的誕生。

這不僅是技術的勝利,更是人類通過創造虛擬世界來反哺現實世界的各種可能性的終極體現。

參考資料:

https://the-decoder.com/a-zelda-puzzle-proves-ai-models-can-crack-gaming-riddles-that-require-thinking-six-moves-ahead/ 

https://the-decoder.com/nvidia-wants-to-create-universal-ai-agents-for-all-worlds-with-nitrogen/ 

本文來自微信公眾號“新智元”,編輯:定慧 ,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論