Claude 3.7硬控馬里奧90秒,GPT-4o開局暴斃,Karpathy直呼基準失效,遊戲成LLM新戰場

avatar
36氪
03-03

Karpathy發出靈魂拷問,評估AI究竟該看哪些指標?答案或許就藏在經典遊戲裡!最近,加州大學聖迭戈分校Hao AI Lab用超級馬里奧等評測AI智能體,Claude 3.7結果令人瞠目結舌。

LLM評估基準的「黃金標準」,正在失效?

一大早,AI大神Karpathy發出質疑,「目前存在一種評估危機,我真的不知道現在該看哪些指標了」。 

諸如MMLU、SWE-Bench Verified、Chatbot Arena等這些基準,各有自己的優劣之處。 

如果這些都不夠,那麼遊戲算不算? 

畢竟,曾經紅極一時的AlphaGo是圍棋界的頭號AI;就連OpenAI也早年涉足遊戲領域,拿著自研AI在DOTA國際賽中取得亮眼的成績。 

最近,Claude 3.7的出世,讓「寶可夢」一時間成為LLM評判的新標杆。 

UCSD Hao AI Lab再次出手,開源了一種全新的「遊戲智能體」,能夠實時讓計算機使用智能體(CUA)運行解謎、益智等類型的遊戲。 

結果顯示,Claude 3.7 Sonnet玩超級馬里奧足足撐滿90s,直接碾壓了OpenAI、Gemini和自家前輩;而GPT-4o一上來就直接掛掉了…… 

谷歌選手Gemini 1.5 Pro首戰即敗,而且非常有規律地兩步一跳。到了Gemini 2.0雖多走了幾步,最終還是栽坑。 

GamingAgent項目代碼已開源,下載安裝即可觀戰AI遊戲大PK。 

GPT-4.5反應遲鈍,GPT-4o永遠被第一個小怪殺死

GPT-4o總是被第一個小怪殺死,像極了操作很爛會被隊友噴的遊戲菜雞。

短短20s,遊戲就結束了。

相比之下,GPT-4.5的表現就好多了,起碼沒卡在第一個小怪。

但它的反應還是很遲緩,幾乎是兩步一停。

跳過一個矮水管之前,也要猶豫片刻,感覺像是剛學會了遊戲操作,還在蹣跚學步。

一個稍高點的水管,嘗試了7次,足足花了10s才跳了過去。

好不容易跳了過去,就撞到小怪死掉了。第一回合就這樣告終了。

更好笑的是,第二回合的時候,GPT-4.5又栽倒在了第一個小怪那裡。畢竟和GPT-4o同屬於OpenAI家族,操作都比較菜(bushi)。

第三回合表現也比較一般,還不如第一回合。第一個矮水管就卡了半天,擱水管底下卡了快10s才想起來跳。

最後雖然絲滑地跳過了第二個水管,但還是被小怪殺死了,還沒有第一回合走得遠。第一回合起碼跳過了第三個水管,雖說剛跳過就被殺了。

Gemini 1.5兩步一跳,2.0栽進坑裡

到了谷歌這邊,Gemini 1.5 Pro首戰也不如意,沒能逃過第一個小怪的魔爪。

第二回合Gemini 1.5算是躲過了第一個小怪,甚至還碰到了問號箱,吃到了蘑菇。

有趣的是,和GPT-4.5兩步一停不同,Gemini 1.5是「兩步一跳」。

走了這麼一小段路,一共就跳了9回。地板上也跳一跳,水管上也跳一跳。

最後也是跳過了第三根水管,甚至差點跳過了第四個,算是走得比GPT-4.5要遠。 

至於更新的Gemini 2.0 Flash,表現上不出意外地要好得多。 

首先,跳得更大膽;其次,跳得也更流暢。 

跳到了「前人」未曾涉足的更高的平臺上,而且10s就輕鬆跳過了前面三個水管。 

雖然第二回合的時候也慘遭第一個小怪的毒手。 

但最後走得比OpenAI家族和Gemini 1.5都遠——跳過了第四根水管,栽倒在了一個沒能跳過去的坑中。 

Claude 3.7 Sonnet發現隱藏獎勵

相比之下,Anthropic的Claude,就要驚豔多了。

相比於Gemini兩步一跳的操作,Claude 3.7的操作更加絲滑,走得也遠很多。 

尤其是在跳躍的時機上,顯得更有章法,碰到水管、碰到坑才會跳。

此外,還會有意識地通過跳躍來躲避小怪。 

跳過了Gemini 2.0 Flash兩回合都沒跳過去的坑,Claude操作下的馬里奧終於是吃到了金幣;終於是碰到了除了哥布林(形似蘑菇)之外的小怪——庫巴(形似烏龜);甚至還碰出了隱藏獎勵——超級星星。 

最後是掉到了階梯平臺之間的坑裡,結束了遊戲。 

AI大戰2048益智遊戲,GPT-4o拿不出手

接下來,再看一個益智類的遊戲2048。

可能很多人對這款遊戲並不熟悉,規則是通過滑動進行拼圖,玩家將帶有相同數字的方塊合併,達到可能最高的數值。 

GPT-4o在挑戰過程中,因為思考過久,陷入困境。 

而Claude 3.7雖多走了幾步,比GPT-4o強不少,但最終還是以失敗告終。 

俄羅斯方塊,智商在線

那麼Claude 3.7玩俄羅斯方塊的表現,又如何呢?

Anthropic開發者關係負責人Alex Albert稱讚道,「非常酷!我們需要把每一款電子遊戲都變成一種評估工具」。 

已經有網友在評論區許願,讓Grok 3加入戰場。 

看來,LLM評估即將開闢一條全新的路。 

參考資料: 

https://x.com/haoailab/status/1895557913621795076

https://x.com/haoailab/status/1895605453461340472

https://lmgame.org/#/aboutus

本文來自微信公眾號“新智元”,作者:新智元,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
1
評論
Followin logo