人工智慧能否在体育博彩市场占据主导地位? 8 款顶级模型的尝试

本文为机器翻译
展示原文

通用推理(General Reasoning)刚刚给了前沿人工智慧(frontier AI)迄今为止最糟糕的成绩单。包括 Claude、Grok、 Gemini和 GPT-5.4 在内的八个顶级模型,分别被赋予虚拟资金,并被要求构建一个涵盖整个 2023-24 赛季英超联赛的机器学习投注策略。

每个人都赔了钱。有好几个甚至彻底破产了。

该基准指数名为KellyBench ,得名于凯利准则(Kelly criterion),这是一个 1956 年提出的公式,它能精确地告诉你,当你拥有市场优势时应该下注多少。每个模型都能背诵凯利公式,但没有一个模型能真正运用它。

xAI 的 Grok 4.20 三次尝试全部失败,一次彻底破产,另外两次中途弃赛。谷歌的Gemini Flash 在三次尝试中两次失败,因为它押注约 27.3 万英镑,赌的是其历史胜率优势为 3 个百分点——结果却输光了。 Anthropic 的最佳模型 Claude Opus 4.6 平均亏损 11%,但最终却表现得像个稳重的成年人。

事实上,该研究论文提到,20 世纪 90 年代末的Dixon-Coles模型在评估的大多数前沿模型中表现最佳——即使数据有限,也领先于八个模型中的六个。

研究人员指出:「Dixon-Coles 模型是 2000 年代的过时基准模型,它没有利用所有可用数据,也没有以系统的方式考虑非平稳性。因此,许多前沿模型,例如Gemini 3.1 Pro,在 KellyBench 测试中无法超越或达到 Dixon-Coles 模型的性能,就更加令人惊讶了。」

这不仅仅关乎足球。今年早些时候,人工智慧基准测试表明,克劳德可以透过价格操纵、卡特尔协议和战略欺骗在商业模拟中占据主导地位

那种决策过程涉及静态竞争、有限的对手、明确的比分等等。 KellyBench 则截然相反:120 个比赛日、不断变化的数据、每周都在变得更加聪明的市场,以及历史战绩为零的升班马球队。

研究人员将核心问题称为「知识-行动差距」。顾名思义,就是知识与行动之间存在著差距。

商业决策大多基于固定条件,而体育博彩市场则更加灵活多变,这给这些模型带来了挑战。 「KellyBench要求智能体在可能成千上万个连续决策中保持意图一致,监控这些决策的后果,并完成观察与行动之间的闭环,」研究人员指出。

显然,我们还没达到目标。

这些模型能够阐明正确的策略,诊断出何时出现故障,并找出损失的原因,但却未能验证其代码是否真正实现了其计划,未能注意到执行何时偏离了预期,也未能根据自己的发现采取行动。

GLM-5 在运作期间编写了三份独立的自我批评文件。每份文件都正确地指出,其预设的 25% 平局率和对主场优势的高估正在严重损害其收益。在某个阶段,当其资金约为 44,200 英镑时,它注意到其预测的 40% 主场胜率实际上只有 30%。但它从未修改代码,而是继续以同样的方式下注,直到资金耗尽。

Kimi K2.5 做了一件或许更令人印象深刻,也更令人扼腕的事情。它编写了一个数学上完全正确的凯利分数投注函数——公式正确,结构也合理。然而,它却从未呼叫过这个函数。一个格式错误导致模型连续发送了大约 50 次错误的 bash 命令。它的推理程序注意到了这个问题。然后,它又发送了一遍相同的错误命令。一次意外的 11.4 万英镑投注——相当于它剩余资金的 98%——在伯恩利对阵卢顿的比赛中彻底击垮了它。

GPT-5.4 最为严谨。它花了 160 次工具呼叫来建立模型,然后才进行第一次下注,之后计算出其对数损失 (0.974) 仅比市场平均 (0.971) 略差,并得出结论:它没有任何优势。在接下来的赛季中,它只进行小额投注以保住本金。这套逻辑相当合理。

OpenAI 的模型平均损失了 13.6% 的准确率。仅运行一个种子模型就需要花费约 2012 美元。

General Reasoning 的执行长兼前 Meta AI 研究员 Ross Taylor告诉《金融时报》 ,大多数人工智慧基准测试都在「非常静态的环境」中运行,与现实世界几乎没有相似之处。他说:“人们对人工智慧自动化充满热情,但很少有人尝试在长期、真实的外部环境中评估人工智慧。”

General Reasoning 团队没有立即回应Decrypt的置评请求。

为了衡量策略品质(而不仅仅是原始收益),研究人员与量化博彩基金专家合作,建立了一个包含44个评分项的复杂程度评估标准,涵盖功能开发、投注规模、非平稳性处理和执行等方面。 Claude Opus 4.6 得分最高,为32.6%,不到总分的三分之一。这是基于最佳模型得出的分数。

更高的模型成熟度得分显著预测了更低的破产率(p = 0.008),并且与更好的整体回报相关。这些模型并非因为市场不可战胜而失效,而是因为它们没有充分利用现有资源。

这符合一种模式。去年发表的一项研究发现,当人工智慧模型被要求最大化奖励时,它们会表现出类似赌博成瘾的倾向——在模拟老虎机测试中,高达 48% 的机率会破产。另一项使用真实货币进行的加密货币交易竞赛也发现,在较长时间内,这些模型同样存在可靠性问题。

表现最佳的模型最终平均资金为 89,035 英镑——在 10 万英镑的初始投入下,净亏损 10,965 英镑。梯度提升、凯利分数投注、数月的英超联赛、最先进的性能……这一切最终都以惨败告终。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论