首屆AI交易大賽落幕，6個AI炒幣2周：Qwen、DeepSeek賺錢，GPT-5血虧6000刀

11-04

經過兩週的廝殺，首屆 nof1 AI 模型交易大賽終於落下帷幕。

這是第一個專為衡量 AI 投資能力而設計的基準測試，被譽為「幣圈版的圖靈測試」，由美國人工智能研究實驗室 Nof1.ai 於 2025 年 10 月 17 日正式啟動，一直持續至 11 月 3 日結束。

參賽選手是 6 款大模型，分別是 DeepSeek Chat V3.1（DeepSeek）、Grok 4（xAI）、Gemini 2.5 Pro（Google）、GPT-5（OpenAI）、Qwen3 Max（阿里巴巴）、Claude Sonnet 4.5（Anthropic）。

這些模型代表了中美兩國閉源和開源供應商的最新技術水平。除 Qwen3-Max 外，所有模型均啟用最高可配置的推理設置，且報告的是開箱即用的性能，未進行任何針對特定任務的微調。

每款大模型獲得 1 萬美元初始資金，使用相同的市場數據和技術指標，自主在 Hyperliquid 上進行加密永續合約交易，全程無人類干預，最終評估哪些模型能夠在投資上獲得最優回報。

他們將操作空間限制為：買入（做多）、賣出（做空）、持有或平倉。可交易的加密貨幣範圍限於 Hyperliquid 上的六種流行加密貨幣：BTC、ETH、SOL、BNB、DOGE 和 XRP。之所以選擇加密資產的三個實際原因是：市場全天候開放，能夠持續觀察決策，而不是隻在工作時間內；數據豐富且易於獲取，這支持分析和透明的審計；Hyperliquid 快速、可靠，並且極易集成，Hyperliquid 和加密貨幣是全球性的，它們不太依賴於特定國家或公司。這些模型進行的是中低頻交易（MLFT），其決策間隔為幾分鐘到幾個小時，而非微秒級別。

按照比賽規則，所有交易記錄、持倉、決策日誌和賬戶餘額變化實時公開，觀眾可通過 Nof1.ai 平臺查看動態圖表，透明度極高。

比賽結果已出爐，兩個國產大模型打了漂亮的一仗。

Qwen3 Max 排名第一，收益率為 22.3%，勝率為 30.2%，總盈虧為 $2232，總交易次數為 43 次。DeepSeek Chat V3.1 排名第二，收益率為 4.89%，勝率為 24.4%，總盈虧為 $489.08，總交易次數為 41 次。

其餘模型均大幅虧損，Claude Sonnet 4.5 虧損 30.81%、Grok 4 虧損 45.3%、Gemini 2.5 Pro 虧損 56.71%、GPT 5 虧損 62.66%。

賽事自啟動以來引發廣泛關注，連幣安創始人趙長鵬也公開評論。

他認為，傳統上交易策略通常依賴於獨特性，最好是別人沒有的策略，這樣才能獲得優勢。如果所有人都用相同的 AI 模型進行交易，可能會導致大家在同一時刻買入或賣出，影響市場動態。

不過，如果足夠多的人使用同一 AI 模型，它的購買力可能會通過市場需求本身推動價格上漲。

他還預測，由於 AI 交易的表現引起了關注，未來可能會有更多人開始研究 AI 在交易中的應用，預計交易量會大幅增加。

六款模型交易「個性」各異

從披露的「成績單」可以看出，這六款模型有著不同的交易「個性」。

Qwen3 Max 整體偏「進攻型」，其回報率高達 22.32%，總盈虧為 2232 美元。儘管費用較高（1654 美元），顯示其交易頻率適中且倉位較大，Qwen3 Max 憑藉 30.2% 的勝率和最大盈利 8176 美元，展現了「高風險高回報」的進取型交易策略。其 Sharpe 值為 0.273，證明其風險調整後收益穩定。

緊隨其後，DeepSeek Chat V3.1 憑藉穩健的表現獲得了第二名，回報率為 4.89%，總盈虧為 489 美元。相對較低的交易費用（690 美元）表明其交易次數不多但效率較高。雖然其勝率為 24.4%，但最大盈利高達 7378 美元，表現出其理性、穩健的策略型特點。Sharpe 值為 0.359，為所有模型中最高，顯示其出色的風險控制能力。

Claude Sonnet 4.5 表現較為平淡，回報率為 - 30.81%，總虧損為 3081 美元。其較低的交易頻率（36 次）和僅 25% 的勝率反映出它偏向謹慎的策略，但最大盈利 2112 美元與最大虧損 1579 美元顯示出其單筆交易的差異性較小。Sharpe 值為 - 0.057，意味著其收益波動較大，風險控制不足。

Grok 4 則以 - 45.3% 的回報率和 4530 美元的總虧損，位居第四。它的交易頻率為 47 次，Sharpe 值為 - 0.118，最大盈利 1356 美元和最大虧損 657 美元表明其操作較為保守，難以抓住市場的大趨勢。

Gemini 2.5 Pro 在大賽中表現不佳，回報率為 - 56.71%，總虧損為 5671 美元。其 238 次交易次數為所有模型中最高，極度活躍，但勝率僅為 25.6%，Sharpe 值為 - 0.566，反映出其過度交易，回報低效。這個模型更像是一個典型的「高頻操盤手」，缺乏穩定的策略。

GPT-5 以 - 62.66% 的回報率和 6266 美元的總虧損，成為表現最差的模型。它的 116 次交易次數雖然較多，但收益極低。勝率為 26.7%，Sharpe 值為 - 0.525，表明其交易存在較大波動且虧損嚴重。最大盈利僅為 270 美元，最大虧損 621 美元，說明其缺乏有效的市場判斷和風險管理。

總體來說，來自中國的 Qwen3 Max 與 DeepSeek 在風險控制與趨勢識別上更為領先，而 GPT-5、Claude、Grok、Gemini 美國系模型則普遍虧損嚴重。

參考鏈接：

https://nof1.ai/leaderboard

https://nof1.ai/blog/TechPost1

本文來自微信公眾號 “機器之心”（ID：almosthuman2014），作者：關注AI的，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論