山姆·奧特曼的OpenAI o3模型——在上週末釋出GPT-5時被棄用——在週四的谷歌Kaggle 遊戲競技場人工智慧國際象棋展覽中,以四連勝擊敗了埃隆·馬斯克的Grok 4。
你可能認為這是高科技巨頭進行終極推理測試的超複雜盛況,但作為開胃菜,讓我們說世界冠軍馬格努斯·卡爾森比較這兩個機器人就像"一個不知道棋子如何移動的有天賦的孩子"。
這場為期三天的比賽於8月5日至7日舉行,迫使通用聊天機器人——沒錯,就是那些幫你寫郵件並聲稱正接近人類智慧水平的機器人——在沒有任何專門訓練的情況下下棋。沒有國際象棋引擎,不能查詢走法,只能靠它們從網際網路上隨機吸收的國際象棋知識。
強迫語言模型下棋的結果和你預期的一樣優雅。卡爾森在最後比賽中擔任評論員,他估計這兩個人工智慧的水平和剛剛學會規則的業餘玩家差不多——大約800分。作為參考,他可以說是有史以來最好的國際象棋選手,擁有2839分的等級分。這些人工智慧就像是從一個損壞的PDF中學習國際象棋。
"它們在非常非常好的走法和不可理解的走法之間搖擺,"卡爾森在比賽後的直播中說。在某一刻,看到Grok直接將王置於危險之中後,他開玩笑說它可能以為是在玩"山上之王"而不是國際象棋。
實際的比賽就像是一堂關於"如何不下國際象棋"的課,即使對於不懂這個遊戲的人來說也是如此。在第一場比賽中,Grok基本上白白送出了一個重要棋子,然後透過在已經落後的情況下繼續交換棋子使情況變得更糟。
第二場比賽變得更加奇怪。Grok試圖執行國際象棋玩家所說的"毒兵"策略——這是一個風險但合理的策略,即抓取看似免費但實際上並非如此的敵方兵。但Grok抓錯了兵,抓的是明顯受到保護的兵。它的後(棋盤上最強大的棋子)立即被困住並被捕獲。
到了第三場比賽,Grok看起來建立了一個穩固的位置——良好的位置控制,沒有明顯的危險,基本上是一個可以幫助贏得比賽的設定。然後在中盤,它基本上直接將球傳給了對手。它迅速連續失去了一個又一個棋子。
這實際上很奇怪,因為在對陣o3之前,Grok是一個相當強勁的競爭者,顯示出堅實的潛力——以至於國際象棋大師hikaru nakamura稱讚它:"Grok目前無疑是最好的,客觀地說,無疑是最好的。"
第四場(也是最後一場)比賽提供了唯一真正的懸念。OpenAI的o3在比賽早期犯了一個巨大的失誤,這在任何合理的比賽中都是很大的危險。正在直播比賽的Nakamura說,儘管處於劣勢,o3仍有"一些小技巧"。
他說得對——o3成功奪回了後,並在Grok的殘局表現如溼紙板般崩潰時,慢慢擠出了一場勝利。
Nakamura在直播中說:"Grok在這些比賽中犯了太多錯誤,而OpenAI沒有。"這與本週早些時候的情況完全相反。
對埃隆·馬斯克來說,時機再糟糕不過了。在Grok早期的強勁表現後,他在X上發帖稱他的人工智慧下棋能力只是一個"副作用",並且xAI在國際象棋上"幾乎沒有付出努力"。事實證明,這是一個保守的說法。
在這場"官方"國際象棋錦標賽之前,國際大師Levy Rozman今年早些時候舉辦了自己的錦標賽,參賽的是不太先進的模型。他尊重聊天機器人推薦的所有走法,結果整個情況變成了一團糟,出現了非法走法、棋子召喚和錯誤計算。專門為國際象棋設計的Stockfish最終在與ChatGPT的比賽中獲勝。奧特曼的人工智慧在半決賽中與馬斯克的對陣,Grok輸掉了比賽。所以山姆以2-0獲勝。
然而,這場比賽不同。每個機器人有四次機會做出合法走法——如果它們四次失敗,就自動失敗。這不是假設。在早期比賽中,人工智慧試圖將棋子傳送到棋盤的另一端,使死去的棋子復活,並像橫向移動兵一樣移動,就像他們發明了某種發燒夢境版本的國際象棋。
它們被取消了資格。
谷歌的Gemini透過擊敗另一個OpenAI模型獲得第三名,為比賽組織者挽回了一些尊嚴。那場季軍賽以一場特別荒謬的和棋告終,雙方人工智慧在不同時刻都擁有完全獲勝的位置,但無法找出如何結束比賽。
卡爾森指出,人工智慧擅長計算被捕獲的棋子,但不擅長將死對方——它們理解物質優勢,但不知道如何獲勝。這就像是擅長收集食材但無法烹飪一頓飯。
這些就是科技高管聲稱正接近人類智慧、威脅白領工作並徹底改變我們工作方式的人工智慧模型。然而,它們連存在1500年的棋類遊戲都無法不作弊或不忘記規則地下。
所以可以說,我們是安全的,人工智慧暫時不會控制人類。




