Liệu trí tuệ nhân tạo (AI) có thể đánh bại thị trường cá cược thể thao? 8 mô hình hàng đầu đã được thử nghiệm.

Bài viết này được dịch máy
Xem bản gốc

General Reasoning vừa đưa ra bản đánh giá tệ nhất từ ​​trước đến nay dành cho Frontier AI. Tám mô hình hàng đầu, bao gồm Claude, Grok, Gemini và GPT-5.4, mỗi mô hình được cấp một số vốn ảo và được yêu cầu xây dựng một chiến lược cá cược dựa trên máy học trong suốt mùa giải Ngoại hạng Anh 2023-2024.

Tất cả đều bị lỗ vốn. Một số người thậm chí phá sản hoàn toàn.

Chỉ số tham chiếu được gọi là KellyBench , đặt theo tiêu chí Kelly, một công thức năm 1956 cho biết chính xác số tiền cần đặt cược khi bạn có lợi thế so với thị trường. Mọi mô hình đều có thể đọc thuộc lòng công thức Kelly. Nhưng không mô hình nào thực sự có thể sử dụng nó.

Mô hình Grok 4.20 của xAI đã thất bại trong cả ba lần thử, bị phá sản hoàn toàn trong một lần và bỏ cuộc giữa mùa giải trong hai lần còn lại. Gemini Flash của Google đã bỏ cuộc hai trong ba lần thử sau khi đặt cược khoảng 273.000 bảng Anh vào lợi thế tỷ lệ thắng lịch sử là ba phần trăm - và thua. Claude Opus 4.6, mô hình tốt nhất của Anthropic, thua trung bình 11% nhưng lại tỏ ra là người chơi trưởng thành có trách nhiệm nhất trong cuộc thử nghiệm.

Trên thực tế, bài nghiên cứu đề cập rằng mô hình Dixon-Coles cũ từ cuối những năm 1990 đã vượt trội hơn hầu hết các mô hình tiên tiến được đánh giá — xếp trên sáu trong số tám mô hình, ngay cả với dữ liệu hạn chế.

“Dixon-Coles là một mô hình chuẩn lỗi thời từ những năm 2000, không sử dụng hết tất cả dữ liệu có sẵn hoặc tính đến tính không ổn định một cách có nguyên tắc,” các nhà nghiên cứu lưu ý. “Do đó, càng đáng ngạc nhiên hơn khi nhiều mô hình tiên tiến, chẳng hạn như Gemini 3.1 Pro, lại không thể vượt trội hoặc sánh ngang với nó trên KellyBench.”

Điều này không chỉ quan trọng trong bóng đá. Đầu năm nay, các bài kiểm tra trí tuệ nhân tạo cho thấy Claude có thể thống trị các mô phỏng kinh doanh thông qua việc ấn định giá, thỏa thuận độc quyền và lừa dối chiến lược.

Quá trình ra quyết định đó bao gồm các cuộc cạnh tranh tĩnh, số lượng đối thủ hạn chế, hệ thống tính điểm rõ ràng, v.v. KellyBench thì ngược lại: 120 vòng đấu, dữ liệu liên tục thay đổi, một thị trường ngày càng thông minh hơn mỗi tuần, và các đội mới thăng hạng chưa từng có thành tích thi đấu nào trước đây.

Các nhà nghiên cứu gọi vấn đề cốt lõi là "khoảng cách giữa kiến ​​thức và hành động". Đúng như tên gọi, nó phản ánh đúng thực trạng vấn đề.

Các quyết định kinh doanh chủ yếu dựa trên các điều kiện cố định, trong khi cá cược thể thao là một thị trường linh hoạt và dễ thay đổi hơn, điều này gây khó khăn cho các mô hình này. Các nhà nghiên cứu lập luận: “KellyBench yêu cầu các tác nhân duy trì ý định nhất quán xuyên suốt hàng nghìn quyết định tuần tự, theo dõi hậu quả của những quyết định đó và khép kín vòng lặp giữa quan sát và hành động”.

Rõ ràng là chúng ta vẫn chưa đạt được điều đó.

Các mô hình có thể trình bày chiến lược đúng đắn, chẩn đoán khi có lỗi và xác định nguyên nhân gây ra tổn thất, nhưng sau đó lại không kiểm chứng được mã của chúng thực sự thực hiện những gì đã lên kế hoạch, không nhận ra khi quá trình thực thi đi chệch khỏi ý định và không hành động dựa trên những phát hiện của chính mình.

GLM-5 đã viết ba tài liệu tự đánh giá riêng biệt trong suốt quá trình hoạt động. Mỗi tài liệu đều chỉ ra chính xác rằng tỷ lệ hòa 25% được mã hóa cứng và việc đánh giá quá cao lợi thế sân nhà đang làm giảm lợi nhuận của nó. Có thời điểm, với số vốn khoảng 44.200 bảng Anh, nó nhận thấy rằng tỷ lệ thắng sân nhà dự đoán là 40% nhưng trên thực tế chỉ đạt 30%. Nó không bao giờ thay đổi mã lập trình. Nó tiếp tục đặt cược theo cách tương tự cho đến khi hết tiền.

Kimi K2.5 đã làm một việc có thể nói là ấn tượng hơn và cũng bi thảm hơn. Nó đã viết một hàm Staking Kelly phân số chính xác về mặt toán học—công thức đúng, cấu trúc chuẩn. Nhưng rồi nó lại không bao giờ gọi hàm đó. Một lỗi định dạng đã khiến mô hình gửi một lệnh bash bị lỗi khoảng 50 lần liên tiếp. Hệ thống suy luận của nó đã nhận ra vấn đề. Sau đó, nó lại gửi lệnh bị lỗi y hệt. Một khoản đặt cược vô tình trị giá 114.000 bảng Anh—98% số tiền còn lại trong tài khoản—vào trận đấu giữa Burnley và Luton đã kết thúc tất cả.

GPT-5.4 là hệ thống hoạt động có phương pháp nhất. Nó đã dành 160 lệnh gọi công cụ để xây dựng mô hình trước khi đặt cược đầu tiên, sau đó tính toán rằng mức thua lỗ logarit của nó (0,974) chỉ tệ hơn một chút so với thị trường (0,971) và kết luận rằng nó không có lợi thế. Nó đã dành phần còn lại của mùa giải để đặt cược nhỏ nhằm bảo toàn Vốn. Lý luận hợp lý.

Mô hình của OpenAI mất trung bình 13,6%. Riêng chi phí vận hành một mã hạt giống đã lên tới khoảng 2.012 đô la.

Ross Taylor, Giám đốc điều hành của General Reasoning và cựu nhà nghiên cứu của Meta AI, nói với Financial Times rằng hầu hết các bài kiểm tra hiệu năng AI đều hoạt động trong "môi trường rất tĩnh" và ít giống với thế giới thực. Ông nói: "Có rất nhiều sự hào hứng về tự động hóa bằng AI, nhưng chưa có nhiều nỗ lực để đánh giá AI trong môi trường thực tế, dài hạn."

Nhóm General Reasoning đã không phản hồi ngay lập tức yêu cầu bình luận từ Decrypt .

Để đánh giá chất lượng chiến lược vượt ra ngoài lợi nhuận thô, các nhà nghiên cứu đã xây dựng một thang điểm đánh giá độ phức tạp gồm 44 điểm với sự hỗ trợ của các chuyên gia quỹ cá cược định lượng—bao gồm phát triển tính năng, quy mô Stake , xử lý biến động và thực thi. Claude Opus 4.6 đạt điểm cao nhất với 32,6%. Chưa đến một phần ba số điểm tối đa. Trên mô hình tốt nhất.

Điểm số về độ phức tạp cao hơn dự đoán đáng kể tỷ lệ phá sản thấp hơn (p = 0,008) và tương quan với lợi nhuận tổng thể tốt hơn. Các mô hình không thất bại vì thị trường quá mạnh. Chúng thất bại vì không tận dụng được những gì mình đang có.

Điều này phù hợp với một quy luật. Nghiên cứu được công bố năm ngoái cho thấy các mô hình AI phát triển thứ gì đó giống như chứng nghiện cờ bạc khi được yêu cầu tối đa hóa phần thưởng—phá sản tới 48% thời gian trong các thử nghiệm máy đánh bạc mô phỏng. Một cuộc thi giao dịch tiền điện tử bằng tiền thật khác cũng phát hiện ra các vấn đề về độ tin cậy tương tự trong thời gian dài.

Mô hình hoạt động tốt nhất có số dư tài khoản trung bình cuối cùng là 89.035 bảng Anh — lỗ ròng 10.965 bảng Anh trên Stake ban đầu được chuẩn hóa là 100.000 bảng Anh. Tăng cường độ dốc, Staking Kelly phân đoạn, nhiều tháng xem bóng đá Ngoại hạng Anh, hiệu năng tiên tiến nhất… tất cả chỉ để rồi bị thua sạch.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận