人工智慧能否在体育博彩市场占据主导地位？ 8 款顶级模型的尝试

本文为机器翻译

展示原文

通用推理（General Reasoning）刚刚给了前沿人工智慧（frontier AI）迄今为止最糟糕的成绩单。包括 Claude、Grok、 Gemini和 GPT-5.4 在内的八个顶级模型，分别被赋予虚拟资金，并被要求构建一个涵盖整个 2023-24 赛季英超联赛的机器学习投注策略。

每个人都赔了钱。有好几个甚至彻底破产了。

该基准指数名为KellyBench ，得名于凯利准则（Kelly criterion），这是一个 1956 年提出的公式，它能精确地告诉你，当你拥有市场优势时应该下注多少。每个模型都能背诵凯利公式，但没有一个模型能真正运用它。

xAI 的 Grok 4.20 三次尝试全部失败，一次彻底破产，另外两次中途弃赛。谷歌的Gemini Flash 在三次尝试中两次失败，因为它押注约 27.3 万英镑，赌的是其历史胜率优势为 3 个百分点——结果却输光了。 Anthropic 的最佳模型 Claude Opus 4.6 平均亏损 11%，但最终却表现得像个稳重的成年人。

事实上，该研究论文提到，20 世纪 90 年代末的Dixon-Coles模型在评估的大多数前沿模型中表现最佳——即使数据有限，也领先于八个模型中的六个。

研究人员指出：「Dixon-Coles 模型是 2000 年代的过时基准模型，它没有利用所有可用数据，也没有以系统的方式考虑非平稳性。因此，许多前沿模型，例如Gemini 3.1 Pro，在 KellyBench 测试中无法超越或达到 Dixon-Coles 模型的性能，就更加令人惊讶了。」

这不仅仅关乎足球。今年早些时候，人工智慧基准测试表明，克劳德可以透过价格操纵、卡特尔协议和战略欺骗在商业模拟中占据主导地位。

那种决策过程涉及静态竞争、有限的对手、明确的比分等等。 KellyBench 则截然相反：120 个比赛日、不断变化的数据、每周都在变得更加聪明的市场，以及历史战绩为零的升班马球队。

研究人员将核心问题称为「知识-行动差距」。顾名思义，就是知识与行动之间存在著差距。

商业决策大多基于固定条件，而体育博彩市场则更加灵活多变，这给这些模型带来了挑战。「KellyBench要求智能体在可能成千上万个连续决策中保持意图一致，监控这些决策的后果，并完成观察与行动之间的闭环，」研究人员指出。

显然，我们还没达到目标。

这些模型能够阐明正确的策略，诊断出何时出现故障，并找出损失的原因，但却未能验证其代码是否真正实现了其计划，未能注意到执行何时偏离了预期，也未能根据自己的发现采取行动。

GLM-5 在运作期间编写了三份独立的自我批评文件。每份文件都正确地指出，其预设的 25% 平局率和对主场优势的高估正在严重损害其收益。在某个阶段，当其资金约为 44,200 英镑时，它注意到其预测的 40% 主场胜率实际上只有 30%。但它从未修改代码，而是继续以同样的方式下注，直到资金耗尽。

Kimi K2.5 做了一件或许更令人印象深刻，也更令人扼腕的事情。它编写了一个数学上完全正确的凯利分数投注函数——公式正确，结构也合理。然而，它却从未呼叫过这个函数。一个格式错误导致模型连续发送了大约 50 次错误的 bash 命令。它的推理程序注意到了这个问题。然后，它又发送了一遍相同的错误命令。一次意外的 11.4 万英镑投注——相当于它剩余资金的 98%——在伯恩利对阵卢顿的比赛中彻底击垮了它。

GPT-5.4 最为严谨。它花了 160 次工具呼叫来建立模型，然后才进行第一次下注，之后计算出其对数损失 (0.974) 仅比市场平均 (0.971) 略差，并得出结论：它没有任何优势。在接下来的赛季中，它只进行小额投注以保住本金。这套逻辑相当合理。

OpenAI 的模型平均损失了 13.6% 的准确率。仅运行一个种子模型就需要花费约 2012 美元。

General Reasoning 的执行长兼前 Meta AI 研究员 Ross Taylor告诉《金融时报》，大多数人工智慧基准测试都在「非常静态的环境」中运行，与现实世界几乎没有相似之处。他说：“人们对人工智慧自动化充满热情，但很少有人尝试在长期、真实的外部环境中评估人工智慧。”

General Reasoning 团队没有立即回应Decrypt的置评请求。

为了衡量策略品质（而不仅仅是原始收益），研究人员与量化博彩基金专家合作，建立了一个包含44个评分项的复杂程度评估标准，涵盖功能开发、投注规模、非平稳性处理和执行等方面。 Claude Opus 4.6 得分最高，为32.6%，不到总分的三分之一。这是基于最佳模型得出的分数。

更高的模型成熟度得分显著预测了更低的破产率（p = 0.008），并且与更好的整体回报相关。这些模型并非因为市场不可战胜而失效，而是因为它们没有充分利用现有资源。

这符合一种模式。去年发表的一项研究发现，当人工智慧模型被要求最大化奖励时，它们会表现出类似赌博成瘾的倾向——在模拟老虎机测试中，高达 48% 的机率会破产。另一项使用真实货币进行的加密货币交易竞赛也发现，在较长时间内，这些模型同样存在可靠性问题。

表现最佳的模型最终平均资金为 89,035 英镑——在 10 万英镑的初始投入下，净亏损 10,965 英镑。梯度提升、凯利分数投注、数月的英超联赛、最先进的性能……这一切最终都以惨败告终。