Cuộc thi giao dịch AI đầu tiên đã kết thúc, với sự tham gia của sáu đầu cơ coin AI trong hai tuần: Qwen và DeepSeek đã kiếm được tiền, trong khi GPT-5 phải chịu khoản lỗ lớn là 6.000 USD .

Bài viết này được dịch máy
Xem bản gốc

Sau hai tuần cạnh tranh quyết liệt, Cuộc thi giao dịch mô hình AI nof1 đầu tiên đã chính thức khép lại.

Đây là bài kiểm tra chuẩn đầu tiên được thiết kế riêng để đo lường năng lực đầu tư AI, được ca ngợi là "Bài kiểm tra Turing của cộng đồng tiền điện tử". Bài kiểm tra này được phòng thí nghiệm nghiên cứu trí tuệ nhân tạo Nof1.ai của Hoa Kỳ chính thức ra mắt vào ngày 17 tháng 10 năm 2025 và sẽ tiếp tục cho đến ngày 3 tháng 11.

Sáu mô hình tham gia là DeepSeek Chat V3.1 (DeepSeek), Grok 4 (xAI), Gemini 2.5 Pro (Google), GPT-5 (OpenAI), Qwen3 Max (Alibaba) và Claude Sonnet 4.5 (Anthropic).

Các mô hình này đại diện cho những tiến bộ công nghệ mới nhất từ ​​cả các nhà cung cấp nguồn đóng và mã nguồn mở tại Trung Quốc và Hoa Kỳ. Ngoại trừ Qwen3-Max, tất cả các mô hình đều được cấu hình với cài đặt suy luận có thể cấu hình cao nhất và báo cáo hiệu suất ngay khi xuất xưởng mà không cần bất kỳ điều chỉnh cụ thể nào cho từng nhiệm vụ.

Mỗi mô hình chính nhận được 10.000 đô la tài trợ ban đầu, sử dụng cùng dữ liệu thị trường và chỉ báo kỹ thuật, và tự động giao dịch hợp đồng crypto vĩnh viễn trên Hyperliquid mà không cần sự can thiệp của con người. Cuối cùng, các mô hình đạt được lợi tức đầu tư tốt nhất đánh giá.

Họ giới hạn không gian hoạt động thành: mua vào(long), bán (short), nắm giữ hoặc đóng các vị thế. Phạm vi tiền điện tử crypto được giới hạn ở sáu crypto phổ biến trên Hyperliquid: BTC, ETH, SOL, BNB, DOGE và XRP. Ba lý do thực tế được chọn để lựa chọn tài sản crypto : thị trường mở cửa 24/7, cho phép quan sát liên tục các quyết định, không chỉ trong giờ làm việc; dữ liệu phong phú và có sẵn, hỗ trợ phân tích và kiểm toán minh bạch; Hyperliquid nhanh, đáng tin cậy và dễ dàng tích hợp; và Hyperliquid và crypto có tính toàn cầu, ít phụ thuộc vào các quốc gia hoặc công ty cụ thể. Các mô hình này thực hiện giao dịch tần suất thấp đến trung bình (MLFT), với các khoảng thời gian quyết định từ phút đến giờ, thay vì ở cấp độ micro giây.

Theo quy định của cuộc thi, tất cả hồ sơ giao dịch, vị thế giữ, nhật ký quyết định và biến động số dư tài khoản đều được công khai theo thời gian thực. Người xem có thể xem biểu đồ động thông qua nền tảng Nof1.ai, đảm bảo tính minh bạch cao.

Kết quả của cuộc thi đã có, hai mẫu xe cỡ lớn sản xuất trong nước đã có một trận chiến xuất sắc.

Qwen3 Max đứng đầu tỷ suất lợi nhuận 22,3%, tỷ lệ thắng 30,2%, tổng lãi/lỗ 2.232 đô la và tổng cộng lần giao dịch. DeepSeek Chat V3.1 đứng thứ hai tỷ suất lợi nhuận 4,89%, tỷ lệ thắng 24,4%, tổng lãi/lỗ 489,08 đô la và tổng cộng 41 lần.

Các mẫu còn lại đều lỗ vốn: Claude Sonnet 4.5 lỗ vốn 30,81%, Grok 4 lỗ vốn 45,3%, Gemini 2.5 Pro lỗ vốn 56,71% và GPT 5 lỗ vốn 62,66%.

Cuộc thi đã thu hút sự chú ý rộng rãi kể từ khi ra mắt, thậm chí người sáng lập Binance CZ cũng đưa ra bình luận công khai.

Ông cho rằng rằng theo truyền thống, các chiến lược giao dịch dựa trên tính độc đáo, lý tưởng nhất là có một chiến lược mà người khác không có, để giành được lợi thế. Nếu mọi người đều sử dụng cùng một mô hình AI để giao dịch, điều đó có thể dẫn đến việc tất cả mọi người mua vào hoặc bán cùng một lúc, ảnh hưởng đến động thái thị trường.

Tuy nhiên, nếu đủ số người sử dụng cùng một mô hình AI, sức mua của nó có thể đẩy giá tăng thông qua chính nhu cầu thị trường.

Ông cũng dự đoán rằng, do sự chú ý dành cho hiệu suất giao dịch của AI, nhiều người có thể bắt đầu nghiên cứu ứng dụng AI trong giao dịch trong tương lai và khối lượng giao dịch dự kiến ​​sẽ tăng đáng kể.

Sáu mô hình giao dịch đều có "cá tính" riêng biệt.

Các "bảng báo cáo" được công bố cho thấy sáu mô hình này có "tính cách" giao dịch khác nhau.

Qwen3 Max thường được đánh giá là "hung hăng", với lợi nhuận 22,32% và tổng lãi/lỗ là 2.232 đô la. Mặc dù phí giao dịch cao (1.654 đô la), cho thấy tần suất giao dịch vừa phải và vị thế lớn, Qwen3 Max vẫn thể hiện chiến lược giao dịch hung hăng "rủi ro, lợi nhuận cao" với tỷ lệ thắng 30,2% và lợi nhuận tối đa 8.176 đô la. Tỷ lệ Sharpe 0,273 chứng tỏ lợi nhuận điều chỉnh rủi ro ổn định.

Theo sát phía sau, DeepSeek Chat V3.1 giành vị trí thứ hai với hiệu suất vững chắc, đạt mức lợi nhuận 4,89% và tổng lãi/lỗ là 489 đô la. Phí giao dịch tương đối thấp (690 đô la) cho thấy số lượng giao dịch thấp nhưng hiệu quả cao. Mặc dù tỷ lệ thắng là 24,4%, lợi nhuận tối đa đạt 7378 đô la, thể hiện tính hợp lý và chiến lược mạnh mẽ của nó. Tỷ lệ Sharpe 0,359 của nó là cao nhất trong số tất cả các mô hình, thể hiện khả năng kiểm soát rủi ro tuyệt vời.

Claude Sonnet 4.5 hoạt động khá kém, với lợi nhuận -30,81% và tổng lỗ vốn 3.081 đô la. Tần suất giao dịch thấp (36 lần) và tỷ lệ thắng chỉ 25% phản ánh một chiến lược thận trọng, nhưng lợi nhuận tối đa 2.112 đô la và mức lỗ vốn tối đa 1.579 đô la cho thấy sự biến động tương đối nhỏ trong từng giao dịch. Tỷ lệ Sharpe là -0,057 cho thấy sự biến động đáng kể lợi nhuận và khả năng kiểm soát rủi ro chưa tốt.

Grok 4 xếp thứ tư với lợi nhuận -45,3% và tổng lỗ vốn 4.530 đô la. Tần suất giao dịch của nó là 47 lần, tỷ lệ Sharpe là -0,118, và lợi nhuận tối đa là 1.356 đô la và lỗ vốn 657 đô la cho thấy cách tiếp cận thận trọng và khó nắm bắt các xu hướng chính của thị trường.

Gemini 2.5 Pro hoạt động kém hiệu quả trong cuộc thi, với lợi nhuận -56,71% và tổng lỗ vốn 5.671 đô la. lần giao dịch của nó là cao nhất trong số tất cả các mô hình, cho thấy hoạt động cực đoan, nhưng tỷ lệ thắng chỉ đạt 25,6% và tỷ lệ Sharpe là -0,566, phản ánh tình trạng giao dịch quá mức và lợi nhuận không hiệu quả. Mô hình này giống với một "thương nhân tài chính tần suất cao" điển hình, thiếu một chiến lược ổn định.

GPT-5 là mô hình có hiệu suất kém nhất với lợi nhuận -62,66% và tổng lỗ vốn 6.266 đô la. Mặc dù có số lượng giao dịch tương đối cao (lần), lợi nhuận cực kỳ thấp. Tỷ lệ thắng của mô hình này là 26,7% và tỷ lệ Sharpe là -0,525, cho thấy sự biến động đáng kể và lỗ vốn đáng kể. Lợi nhuận tối đa của mô hình này chỉ là 270 đô la và lỗ vốn 621 đô la, cho thấy sự thiếu hụt khả năng phán đoán thị trường và quản lý rủi ro hiệu quả.

Nhìn chung, Qwen3 Max và DeepSeek từ Trung Quốc tiên tiến hơn về khả năng kiểm soát rủi ro và nhận dạng xu hướng, trong khi các mô hình GPT-5, Claude, Grok và Gemini từ Hoa Kỳ thường lỗ vốn tổn thất đáng kể.

Liên kết tham khảo:

https://nof1.ai/leaderboard

https://nof1.ai/blog/TechPost1

Bài viết này được trích từ tài khoản công khai WeChat "Machine Heart" (ID: almosthuman2014) , do một người tập trung vào AI biên soạn và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận