General Reasoning은 Frontier AI에 역대 최악의 평가를 내렸습니다. Claude, Grok, 제미니(Gemini), GPT-5.4를 포함한 8개의 최상위 모델에 각각 가상 자금이 주어졌고, 2023-24 시즌 잉글리시 프리미어 리그 전체에 걸쳐 머신러닝 기반 베팅 전략을 구축하도록 요청받았습니다.
모두 손해를 봤고, 몇몇은 완전히 파산했습니다.
이 벤치마크는 1956년에 발표된 켈리 기준(Kelly criterion)에서 이름을 따온 켈리벤치(KellyBench) 입니다. 켈리 기준은 시장에서 우위를 점했을 때 정확히 얼마를 베팅해야 하는지 알려주는 공식입니다. 모든 모델이 켈리 공식을 줄줄 외울 수는 있었지만, 실제로 활용할 수 있는 모델은 아무도 없었습니다.
xAI의 Grok 4.20은 세 번의 시도 모두 실패했는데, 한 번은 완전히 파산했고, 나머지 두 번은 시즌 도중에 포기했습니다. 구글의 제미니(Gemini) Flash는 과거 승률에서 3%포인트 우위를 점할 수 있다는 기대에 약 27만 3천 파운드를 걸었다가 결국 실패하면서 세 번의 시도 중 두 번을 포기했습니다. 앤트로픽의 최고 모델인 Claude Opus 4.6은 평균 11%의 손실을 기록했지만, 어쩐지 가장 책임감 있는 모습을 보였습니다.
실제로 해당 연구 논문에서는 1990년대 후반의 기존 딕슨-콜스 모델이 평가 대상 최첨단 모델 대부분보다 우수한 성능을 보였으며, 제한된 데이터에도 불구하고 8개 모델 중 6개 모델보다 앞섰다고 언급하고 있습니다.
"딕슨-콜스 지수는 2000년대에 만들어진 구식 기준선으로, 사용 가능한 모든 데이터를 활용하지 못하고 비정상성을 원칙에 입각한 방식으로 고려하지 않습니다."라고 연구진은 지적합니다. "따라서 제미니(Gemini) 3.1 프로와 같은 많은 최첨단 모델들이 켈리벤치에서 딕슨-콜스 지수를 능가하거나 동등한 성능을 보이지 못하는 것은 더욱 놀라운 일입니다."
이는 축구를 넘어 중요한 문제입니다. 올해 초 AI 벤치마크 결과에 따르면 클로드는 가격 담합, 카르텔 계약, 전략적 기만 등을 통해 비즈니스 시뮬레이션에서 뛰어난 성능을 발휘할 수 있는 것으로 나타났습니다.
그러한 의사 결정 과정은 정적인 경쟁, 제한된 상대, 명확한 득점 등을 전제로 했습니다. 켈리벤치는 정반대입니다. 120경기, 끊임없이 변화하는 데이터, 매주 더욱 정교해지는 시장, 그리고 과거 기록이 전혀 없는 승격팀까지 고려합니다.
연구진은 핵심 문제를 "지식과 행동 사이의 격차"라고 부릅니다. 말 그대로 지식과 행동 사이의 격차를 의미합니다.
비즈니스 의사 결정은 대부분 고정된 조건에 기반하지만, 스포츠 베팅 시장은 훨씬 유동적이고 변화무쌍하기 때문에 이러한 모델들이 적용하기 어렵습니다. 연구진은 "KellyBench는 에이전트가 수천 건의 순차적인 의사 결정 전반에 걸쳐 일관된 의도를 유지하고, 해당 결정의 결과를 모니터링하며, 관찰과 행동 사이의 연결 고리를 완성하도록 요구한다"고 주장합니다.
물론 아직 그 단계는 아닙니다.
모델은 올바른 전략을 제시하고, 문제가 발생했을 때 이를 진단하고, 손실의 원인을 파악할 수 있었지만, 코드가 계획대로 구현되었는지 검증하지 못했고, 실행이 의도와 달랐을 때 이를 알아차리지 못했으며, 발견한 내용을 바탕으로 조치를 취하지 못했습니다.
골렘(GLM)-5는 운영 기간 동안 세 차례에 걸쳐 자체 분석 문서를 작성했습니다. 각 문서에서 GLM-5가 고정적으로 설정한 25%의 무승부 확률과 홈 경기 이점을 과대평가한 것이 수익률을 저해하고 있음을 정확하게 지적했습니다. 한때 자금이 약 44,200파운드에 달했을 때, GLM-5는 예상했던 40%의 홈 경기 승률이 실제로는 30%에 그치고 있음을 발견했습니다. 하지만 GLM-5는 코드를 변경하지 않고 자금이 바닥날 때까지 같은 방식으로 계속 베팅했습니다.
Kimi K2.5는 어쩌면 더 인상적이면서도 더 비극적인 일을 저질렀습니다. 수학적으로 정확한 분수 켈리 스테이킹 함수, 즉 올바른 공식과 구조를 갖춘 함수를 작성했지만, 한 번도 호출하지 않았습니다. 형식 오류로 인해 모델은 잘못된 bash 명령어를 약 50번 연속으로 전송했습니다. 모델은 오류를 감지했지만, 똑같은 잘못된 명령어를 다시 전송했습니다. 결국 실수로 번리 대 루턴 경기에 11만 4천 파운드(남은 자금의 98%)를 걸면서 모델은 완전히 망했습니다.
GPT-5.4는 가장 체계적인 전략을 사용했습니다. 160번의 툴 호출을 통해 모델을 구축한 후 단 한 번의 베팅도 하지 않았고, 그 결과 로그 손실(0.974)이 시장 평균(0.971)보다 약간 나쁜 수준임을 확인하고는 우위가 없다고 결론 내렸습니다. 이후 남은 기간 동안 자본 보존하기 위해 소액 베팅을 계속했습니다. 매우 합리적인 판단이었습니다.
OpenAI의 모델은 평균 13.6%의 손실을 기록했습니다. 시드 하나를 실행하는 데만 약 2,012달러가 들었습니다.
제너럴 리즌(General Reasoning)의 CEO이자 전 메타 AI 연구원인 로스 테일러는 파이낸셜 타임즈와의 인터뷰에서 대부분의 AI 벤치마크는 현실 세계와는 거의 유사점이 없는 "매우 정적인 환경"에서 작동한다고 말했습니다 . 그는 "AI 자동화에 대한 기대는 크지만, 장기적이고 실제적인 환경에서 AI를 평가하려는 시도는 많지 않았다"고 덧붙였습니다.
General Reasoning 팀은 디크립트(Decrypt) 의 논평 요청에 즉시 응답하지 않았습니다.
연구진은 단순한 수익률을 넘어 전략의 질을 측정하기 위해 양적 투자 펀드 전문가들과 함께 44개 항목으로 구성된 정교성 평가표를 개발했습니다. 이 평가표는 특징 개발, 예치(stake) 규모, 비정상성 처리, 실행 등을 포괄합니다. 클로드 오푸스 4.6은 32.6%로 가장 높은 점수를 받았지만, 이는 전체 만점의 3분의 1에도 못 미치는 점수입니다. 그것도 가장 우수한 모델에서 말이죠.
정교함 점수가 높을수록 파산율이 유의미하게 낮아지는 것으로 나타났으며(p = 0.008), 전반적인 수익률 또한 더 높은 것으로 확인되었습니다. 모델이 실패하는 이유는 시장이 너무 강력해서가 아니라, 보유한 자원을 제대로 활용하지 못하기 때문입니다.
이는 일정한 패턴을 보여줍니다. 작년에 발표된 연구에 따르면 AI 모델은 보상을 극대화하도록 지시받았을 때 도박 중독과 유사한 증상을 보이며, 모의 슬롯머신 테스트에서 최대 48%의 확률로 파산하는 것으로 나타났습니다. 별도의 실제 현금 암호화폐 거래 대회에서도 장기간에 걸쳐 동일한 신뢰성 문제가 발견되었습니다.
가장 뛰어난 성과를 보인 모델의 최종 자산은 평균 89,035파운드였으며, 이는 초기 예치(stake) 10만 파운드를 기준으로 환산했을 때 10,965파운드의 순손실을 의미합니다. 그래디언트 부스팅, 부분 켈리 스테이킹, 수개월간의 프리미어 리그 경기 분석, 최첨단 성능… 이 모든 것이 결국 참패로 이어졌습니다.



