人工智慧能否在體育博彩市場佔據主導地位? 8 款頂級模型的嘗試

本文為機器翻譯
展示原文

通用推理(General Reasoning)剛剛給了前沿人工智慧(frontier AI)迄今為止最糟糕的成績單。包括 Claude、Grok、 Gemini和 GPT-5.4 在內的八個頂級模型,分別被賦予虛擬資金,並被要求構建一個涵蓋整個 2023-24 賽季英超聯賽的機器學習投注策略。

每個人都賠了錢。有好幾個甚至徹底破產了。

該基準指數名為KellyBench ,得名於凱利準則(Kelly criterion),這是一個 1956 年提出的公式,它能精確地告訴你,當你擁有市場優勢時應該下注多少。每個模型都能背誦凱利公式,但沒有一個模型能真正運用它。

xAI 的 Grok 4.20 三次嘗試全部失敗,一次徹底破產,另外兩次中途棄賽。谷歌的Gemini Flash 在三次嘗試中兩次失敗,因為它押注約 27.3 萬英鎊,賭的是其歷史勝率優勢為 3 個百分點——結果卻輸光了。 Anthropic 的最佳模型 Claude Opus 4.6 平均虧損 11%,但最終卻表現得像個穩重的成年人。

事實上,該研究論文提到,20 世紀 90 年代末的Dixon-Coles模型在評估的大多數前沿模型中表現最佳——即使數據有限,也領先於八個模型中的六個。

研究人員指出:「Dixon-Coles 模型是 2000 年代的過時基準模型,它沒有利用所有可用數據,也沒有以系統的方式考慮非平穩性。因此,許多前沿模型,例如Gemini 3.1 Pro,在 KellyBench 測試中無法超越或達到 Dixon-Coles 模型的性能,就更加令人驚訝了。」

這不僅僅關乎足球。今年早些時候,人工智慧基準測試表明,克勞德可以透過價格操縱、卡特爾協議和戰略欺騙在商業模擬中佔據主導地位

那種決策過程涉及靜態競爭、有限的對手、明確的比分等等。 KellyBench 則截然相反:120 個比賽日、不斷變化的數據、每週都在變得更加聰明的市場,以及歷史戰績為零的升班馬球隊。

研究人員將核心問題稱為「知識-行動差距」。顧名思義,就是知識與行動之間存在著差距。

商業決策大多基於固定條件,而體育博彩市場則更加靈活多變,這給這些模型帶來了挑戰。 「KellyBench要求智能體在可能成千上萬個連續決策中保持意圖一致,監控這些決策的後果,並完成觀察與行動之間的閉環,」研究人員指出。

顯然,我們還沒達到目標。

這些模型能夠闡明正確的策略,診斷出何時出現故障,並找出損失的原因,但卻未能驗證其代碼是否真正實現了其計劃,未能注意到執行何時偏離了預期,也未能根據自己的發現採取行動。

GLM-5 在運作期間編寫了三份獨立的自我批評文件。每份文件都正確地指出,其預設的 25% 平局率和對主場優勢的高估正在嚴重損害其收益。在某個階段,當其資金約為 44,200 英鎊時,它注意到其預測的 40% 主場勝率實際上只有 30%。但它從未修改代碼,而是繼續以同樣的方式下注,直到資金耗盡。

Kimi K2.5 做了一件或許更令人印象深刻,也更令人扼腕的事情。它編寫了一個數學上完全正確的凱利分數投注函數——公式正確,結構也合理。然而,它卻從未呼叫過這個函數。一個格式錯誤導致模型連續發送了大約 50 次錯誤的 bash 命令。它的推理程序注意到了這個問題。然後,它又發送了一遍相同的錯誤命令。一次意外的 11.4 萬英鎊投注——相當於它剩餘資金的 98%——在伯恩利對陣盧頓的比賽中徹底擊垮了它。

GPT-5.4 最為嚴謹。它花了 160 次工具呼叫來建立模型,然後才進行第一次下注,之後計算出其對數損失 (0.974) 僅比市場平均 (0.971) 略差,並得出結論:它沒有任何優勢。在接下來的賽季中,它只進行小額投注以保住本金。這套邏輯相當合理。

OpenAI 的模型平均損失了 13.6% 的準確率。僅運行一個種子模型就需要花費約 2012 美元。

General Reasoning 的執行長兼前 Meta AI 研究員 Ross Taylor告訴《金融時報》 ,大多數人工智慧基準測試都在「非常靜態的環境」中運行,與現實世界幾乎沒有相似之處。他說:“人們對人工智慧自動化充滿熱情,但很少有人嘗試在長期、真實的外部環境中評估人工智慧。”

General Reasoning 團隊沒有立即回應Decrypt的置評請求。

為了衡量策略品質(而不僅僅是原始收益),研究人員與量化博彩基金專家合作,建立了一個包含44個評分項的複雜程度評估標準,涵蓋功能開發、投注規模、非平穩性處理和執行等方面。 Claude Opus 4.6 得分最高,為32.6%,不到總分的三分之一。這是基於最佳模型得出的分數。

更高的模型成熟度得分顯著預測了更低的破產率(p = 0.008),並且與更好的整體回報相關。這些模型並非因為市場不可戰勝而失效,而是因為它們沒有充分利用現有資源。

這符合一種模式。去年發表的一項研究發現,當人工智慧模型被要求最大化獎勵時,它們會表現出類似賭博成癮的傾向——在模擬老虎機測試中,高達 48% 的機率會破產。另一項使用真實貨幣進行的加密貨幣交易競賽也發現,在較長時間內,這些模型同樣存在可靠性問題。

表現最佳的模型最終平均資金為 89,035 英鎊——在 10 萬英鎊的初始投入下,淨虧損 10,965 英鎊。梯度提升、凱利分數投注、數月的英超聯賽、最先進的性能……這一切最終都以慘敗告終。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論