山姆·奥特曼的OpenAI o3模型——在上周末发布GPT-5时被弃用——在周四的谷歌Kaggle 游戏竞技场人工智能国际象棋展览中,以四连胜击败了埃隆·马斯克的Grok 4。
你可能认为这是高科技巨头进行终极推理测试的超复杂盛况,但作为开胃菜,让我们说世界冠军马格努斯·卡尔森比较这两个机器人就像"一个不知道棋子如何移动的有天赋的孩子"。
这场为期三天的比赛于8月5日至7日举行,迫使通用聊天机器人——没错,就是那些帮你写邮件并声称正接近人类智能水平的机器人——在没有任何专门训练的情况下下棋。没有国际象棋引擎,不能查找走法,只能靠它们从互联网上随机吸收的国际象棋知识。
强迫语言模型下棋的结果和你预期的一样优雅。卡尔森在最后比赛中担任评论员,他估计这两个人工智能的水平和刚刚学会规则的业余玩家差不多——大约800分。作为参考,他可以说是有史以来最好的国际象棋选手,拥有2839分的等级分。这些人工智能就像是从一个损坏的PDF中学习国际象棋。
"它们在非常非常好的走法和不可理解的走法之间摇摆,"卡尔森在比赛后的直播中说。在某一刻,看到Grok直接将王置于危险之中后,他开玩笑说它可能以为是在玩"山上之王"而不是国际象棋。
实际的比赛就像是一堂关于"如何不下国际象棋"的课,即使对于不懂这个游戏的人来说也是如此。在第一场比赛中,Grok基本上白白送出了一个重要棋子,然后通过在已经落后的情况下继续交换棋子使情况变得更糟。
第二场比赛变得更加奇怪。Grok试图执行国际象棋玩家所说的"毒兵"策略——这是一个风险但合理的策略,即抓取看似免费但实际上并非如此的敌方兵。但Grok抓错了兵,抓的是明显受到保护的兵。它的后(棋盘上最强大的棋子)立即被困住并被捕获。
到了第三场比赛,Grok看起来建立了一个稳固的位置——良好的位置控制,没有明显的危险,基本上是一个可以帮助赢得比赛的设置。然后在中盘,它基本上直接将球传给了对手。它迅速连续失去了一个又一个棋子。
这实际上很奇怪,因为在对阵o3之前,Grok是一个相当强劲的竞争者,显示出坚实的潜力——以至于国际象棋大师hikaru nakamura称赞它:"Grok目前无疑是最好的,客观地说,无疑是最好的。"
第四场(也是最后一场)比赛提供了唯一真正的悬念。OpenAI的o3在比赛早期犯了一个巨大的失误,这在任何合理的比赛中都是很大的危险。正在直播比赛的Nakamura说,尽管处于劣势,o3仍有"一些小技巧"。
他说得对——o3成功夺回了后,并在Grok的残局表现如湿纸板般崩溃时,慢慢挤出了一场胜利。
Nakamura在直播中说:"Grok在这些比赛中犯了太多错误,而OpenAI没有。"这与本周早些时候的情况完全相反。
对埃隆·马斯克来说,时机再糟糕不过了。在Grok早期的强劲表现后,他在X上发帖称他的人工智能下棋能力只是一个"副作用",并且xAI在国际象棋上"几乎没有付出努力"。事实证明,这是一个保守的说法。
在这场"官方"国际象棋锦标赛之前,国际大师Levy Rozman今年早些时候举办了自己的锦标赛,参赛的是不太先进的模型。他尊重聊天机器人推荐的所有走法,结果整个情况变成了一团糟,出现了非法走法、棋子召唤和错误计算。专门为国际象棋设计的Stockfish最终在与ChatGPT的比赛中获胜。奥特曼的人工智能在半决赛中与马斯克的对阵,Grok输掉了比赛。所以山姆以2-0获胜。
然而,这场比赛不同。每个机器人有四次机会做出合法走法——如果它们四次失败,就自动失败。这不是假设。在早期比赛中,人工智能试图将棋子传送到棋盘的另一端,使死去的棋子复活,并像横向移动兵一样移动,就像他们发明了某种发烧梦境版本的国际象棋。
它们被取消了资格。
谷歌的Gemini通过击败另一个OpenAI模型获得第三名,为比赛组织者挽回了一些尊严。那场季军赛以一场特别荒谬的和棋告终,双方人工智能在不同时刻都拥有完全获胜的位置,但无法找出如何结束比赛。
卡尔森指出,人工智能擅长计算被捕获的棋子,但不擅长将死对方——它们理解物质优势,但不知道如何获胜。这就像是擅长收集食材但无法烹饪一顿饭。
这些就是科技高管声称正接近人类智能、威胁白领工作并彻底改变我们工作方式的人工智能模型。然而,它们连存在1500年的棋类游戏都无法不作弊或不忘记规则地下。
所以可以说,我们是安全的,人工智能暂时不会控制人类。




