人工智慧能否在體育博彩市場佔據主導地位？ 8 款頂級模型的嘗試

本文為機器翻譯

展示原文

通用推理（General Reasoning）剛剛給了前沿人工智慧（frontier AI）迄今為止最糟糕的成績單。包括 Claude、Grok、 Gemini和 GPT-5.4 在內的八個頂級模型，分別被賦予虛擬資金，並被要求構建一個涵蓋整個 2023-24 賽季英超聯賽的機器學習投注策略。

每個人都賠了錢。有好幾個甚至徹底破產了。

該基準指數名為KellyBench ，得名於凱利準則（Kelly criterion），這是一個 1956 年提出的公式，它能精確地告訴你，當你擁有市場優勢時應該下注多少。每個模型都能背誦凱利公式，但沒有一個模型能真正運用它。

xAI 的 Grok 4.20 三次嘗試全部失敗，一次徹底破產，另外兩次中途棄賽。谷歌的Gemini Flash 在三次嘗試中兩次失敗，因為它押注約 27.3 萬英鎊，賭的是其歷史勝率優勢為 3 個百分點——結果卻輸光了。 Anthropic 的最佳模型 Claude Opus 4.6 平均虧損 11%，但最終卻表現得像個穩重的成年人。

事實上，該研究論文提到，20 世紀 90 年代末的Dixon-Coles模型在評估的大多數前沿模型中表現最佳——即使數據有限，也領先於八個模型中的六個。

研究人員指出：「Dixon-Coles 模型是 2000 年代的過時基準模型，它沒有利用所有可用數據，也沒有以系統的方式考慮非平穩性。因此，許多前沿模型，例如Gemini 3.1 Pro，在 KellyBench 測試中無法超越或達到 Dixon-Coles 模型的性能，就更加令人驚訝了。」

這不僅僅關乎足球。今年早些時候，人工智慧基準測試表明，克勞德可以透過價格操縱、卡特爾協議和戰略欺騙在商業模擬中佔據主導地位。

那種決策過程涉及靜態競爭、有限的對手、明確的比分等等。 KellyBench 則截然相反：120 個比賽日、不斷變化的數據、每週都在變得更加聰明的市場，以及歷史戰績為零的升班馬球隊。

研究人員將核心問題稱為「知識-行動差距」。顧名思義，就是知識與行動之間存在著差距。

商業決策大多基於固定條件，而體育博彩市場則更加靈活多變，這給這些模型帶來了挑戰。「KellyBench要求智能體在可能成千上萬個連續決策中保持意圖一致，監控這些決策的後果，並完成觀察與行動之間的閉環，」研究人員指出。

顯然，我們還沒達到目標。

這些模型能夠闡明正確的策略，診斷出何時出現故障，並找出損失的原因，但卻未能驗證其代碼是否真正實現了其計劃，未能注意到執行何時偏離了預期，也未能根據自己的發現採取行動。

GLM-5 在運作期間編寫了三份獨立的自我批評文件。每份文件都正確地指出，其預設的 25% 平局率和對主場優勢的高估正在嚴重損害其收益。在某個階段，當其資金約為 44,200 英鎊時，它注意到其預測的 40% 主場勝率實際上只有 30%。但它從未修改代碼，而是繼續以同樣的方式下注，直到資金耗盡。

Kimi K2.5 做了一件或許更令人印象深刻，也更令人扼腕的事情。它編寫了一個數學上完全正確的凱利分數投注函數——公式正確，結構也合理。然而，它卻從未呼叫過這個函數。一個格式錯誤導致模型連續發送了大約 50 次錯誤的 bash 命令。它的推理程序注意到了這個問題。然後，它又發送了一遍相同的錯誤命令。一次意外的 11.4 萬英鎊投注——相當於它剩餘資金的 98%——在伯恩利對陣盧頓的比賽中徹底擊垮了它。

GPT-5.4 最為嚴謹。它花了 160 次工具呼叫來建立模型，然後才進行第一次下注，之後計算出其對數損失 (0.974) 僅比市場平均 (0.971) 略差，並得出結論：它沒有任何優勢。在接下來的賽季中，它只進行小額投注以保住本金。這套邏輯相當合理。

OpenAI 的模型平均損失了 13.6% 的準確率。僅運行一個種子模型就需要花費約 2012 美元。

General Reasoning 的執行長兼前 Meta AI 研究員 Ross Taylor告訴《金融時報》，大多數人工智慧基準測試都在「非常靜態的環境」中運行，與現實世界幾乎沒有相似之處。他說：“人們對人工智慧自動化充滿熱情，但很少有人嘗試在長期、真實的外部環境中評估人工智慧。”

General Reasoning 團隊沒有立即回應Decrypt的置評請求。

為了衡量策略品質（而不僅僅是原始收益），研究人員與量化博彩基金專家合作，建立了一個包含44個評分項的複雜程度評估標準，涵蓋功能開發、投注規模、非平穩性處理和執行等方面。 Claude Opus 4.6 得分最高，為32.6%，不到總分的三分之一。這是基於最佳模型得出的分數。

更高的模型成熟度得分顯著預測了更低的破產率（p = 0.008），並且與更好的整體回報相關。這些模型並非因為市場不可戰勝而失效，而是因為它們沒有充分利用現有資源。

這符合一種模式。去年發表的一項研究發現，當人工智慧模型被要求最大化獎勵時，它們會表現出類似賭博成癮的傾向——在模擬老虎機測試中，高達 48% 的機率會破產。另一項使用真實貨幣進行的加密貨幣交易競賽也發現，在較長時間內，這些模型同樣存在可靠性問題。

表現最佳的模型最終平均資金為 89,035 英鎊——在 10 萬英鎊的初始投入下，淨虧損 10,965 英鎊。梯度提升、凱利分數投注、數月的英超聯賽、最先進的性能……這一切最終都以慘敗告終。