別緊張,你玩《毀滅戰士》還是比 AI 好

avatar
Decrypt
04-20
本文為機器翻譯
展示原文

儘管人工智慧備受關注,但即使是最先進的視覺語言模型——GPT-4o、Claude Sonnet 3.7和Gemini 2.5 Pro,也難以應對這個幾十年的挑戰:玩經典第一人稱射擊遊戲毀滅戰士。

週四,一個新的研究專案推出了VideoGameBench,這是一個人工智慧基準測試,旨在測試最先進的視覺語言模型是否能僅憑螢幕上看到的內容來玩和擊敗20款流行影片遊戲。

"根據我們的經驗,當前最先進的視覺語言模型在玩影片遊戲時嚴重受阻,因為推理延遲很高,"研究人員說。"當代理擷取螢幕截圖並詢問視覺語言模型應該採取什麼行動時,等到響應返回時,遊戲狀態已經發生了重大變化,行動不再相關。"

研究人員表示,他們使用經典的Game Boy和MS-DOS遊戲,因為這些遊戲的視覺效果簡單,輸入方式多樣,如滑鼠和鍵盤或遊戲手柄,這比基於文字的遊戲更能測試視覺語言模型的空間推理能力。

VideoGameBench由計算機科學家和人工智慧研究員Alex Zhang開發。遊戲套件包括魔獸爭霸II、帝國時代和波斯王子等經典遊戲。

據研究人員稱,延遲響應在毀滅戰士等第一人稱射擊遊戲中最為棘手。在這些快節奏的環境中,螢幕截圖中可見的敵人可能已經移動,甚至已經接近玩家,而模型尚未採取行動。

對於軟體開發人員來說,毀滅戰士長期以來一直是測試遊戲環境中技術能力的試金石。割草機比特幣,甚至人體腸道細菌都以不同程度的成功對抗地獄惡魔。現在輪到人工智慧了。

"讓毀滅戰士從90年代的陰影中走向現代光明的,不是其引人入勝的遊戲性,而是其誘人的計算設計,"麻省理工學院生物技術研究員Lauren Ramlan此前對Decrypt表示。"建立在id Tech 1引擎上,該遊戲的設計只需最基本的設定就可以玩。"

除了難以理解遊戲環境外,這些模型often未能執行基本的遊戲內操作。

"我們觀察到代理經常難以理解其行動(如向右移動)在螢幕上的轉換,"研究人員說。"我們測試的所有前沿模型中最一致的失敗是無法可靠地控制文明和魔獸爭霸II等遊戲中的滑鼠,而在這些遊戲中,精確和頻繁的滑鼠移動至關重要。"

為了更好地瞭解當前人工智慧系統的侷限性,VideoGameBench強調了在動態且複雜的環境中評估其推理能力的重要性。

"與未解決的數學證明和奧林匹克級數學問題等極其複雜的領域不同,玩影片遊戲並不是超人的推理任務,但模型仍然難以解決它們,"他們說。

編輯:Andrew Hayward

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
1
收藏
1
評論