首屆AI交易大賽落幕,6個AI炒幣2周:Qwen、DeepSeek賺錢,GPT-5血虧6000刀

經過兩週的廝殺,首屆 nof1 AI 模型交易大賽終於落下帷幕。

這是第一個專為衡量 AI 投資能力而設計的基準測試,被譽為「幣圈版的圖靈測試」,由美國人工智能研究實驗室 Nof1.ai 於 2025 年 10 月 17 日正式啟動,一直持續至 11 月 3 日結束。

參賽選手是 6 款大模型,分別是 DeepSeek Chat V3.1(DeepSeek)、Grok 4(xAI)、Gemini 2.5 Pro(Google)、GPT-5(OpenAI)、Qwen3 Max(阿里巴巴)、Claude Sonnet 4.5(Anthropic)。

這些模型代表了中美兩國閉源和開源供應商的最新技術水平。除 Qwen3-Max 外,所有模型均啟用最高可配置的推理設置,且報告的是開箱即用的性能,未進行任何針對特定任務的微調。

每款大模型獲得 1 萬美元初始資金,使用相同的市場數據和技術指標,自主在 Hyperliquid 上進行加密永續合約交易,全程無人類干預,最終評估哪些模型能夠在投資上獲得最優回報。

他們將操作空間限制為:買入(做多)、賣出(做空)、持有或平倉。可交易的加密貨幣範圍限於 Hyperliquid 上的六種流行加密貨幣:BTC、ETH、SOL、BNB、DOGE 和 XRP。之所以選擇加密資產的三個實際原因是:市場全天候開放,能夠持續觀察決策,而不是隻在工作時間內;數據豐富且易於獲取,這支持分析和透明的審計;Hyperliquid 快速、可靠,並且極易集成,Hyperliquid 和加密貨幣是全球性的,它們不太依賴於特定國家或公司。這些模型進行的是中低頻交易(MLFT),其決策間隔為幾分鐘到幾個小時,而非微秒級別。

按照比賽規則,所有交易記錄、持倉、決策日誌和賬戶餘額變化實時公開,觀眾可通過 Nof1.ai 平臺查看動態圖表,透明度極高。

比賽結果已出爐,兩個國產大模型打了漂亮的一仗。

Qwen3 Max 排名第一,收益率為 22.3%,勝率為 30.2%,總盈虧為 $2232,總交易次數為 43 次。DeepSeek Chat V3.1 排名第二,收益率為 4.89%,勝率為 24.4%,總盈虧為 $489.08,總交易次數為 41 次。

其餘模型均大幅虧損,Claude Sonnet 4.5 虧損 30.81%、Grok 4 虧損 45.3%、Gemini 2.5 Pro 虧損 56.71%、GPT 5 虧損 62.66%。

賽事自啟動以來引發廣泛關注,連幣安創始人趙長鵬也公開評論。

他認為,傳統上交易策略通常依賴於獨特性,最好是別人沒有的策略,這樣才能獲得優勢。如果所有人都用相同的 AI 模型進行交易,可能會導致大家在同一時刻買入或賣出,影響市場動態。

不過,如果足夠多的人使用同一 AI 模型,它的購買力可能會通過市場需求本身推動價格上漲。

他還預測,由於 AI 交易的表現引起了關注,未來可能會有更多人開始研究 AI 在交易中的應用,預計交易量會大幅增加。

六款模型交易「個性」各異

從披露的「成績單」可以看出,這六款模型有著不同的交易「個性」。

Qwen3 Max 整體偏「進攻型」,其回報率高達 22.32%,總盈虧為 2232 美元。儘管費用較高(1654 美元),顯示其交易頻率適中且倉位較大,Qwen3 Max 憑藉 30.2% 的勝率和最大盈利 8176 美元,展現了「高風險高回報」的進取型交易策略。其 Sharpe 值為 0.273,證明其風險調整後收益穩定。

緊隨其後,DeepSeek Chat V3.1 憑藉穩健的表現獲得了第二名,回報率為 4.89%,總盈虧為 489 美元。相對較低的交易費用(690 美元)表明其交易次數不多但效率較高。雖然其勝率為 24.4%,但最大盈利高達 7378 美元,表現出其理性、穩健的策略型特點。Sharpe 值為 0.359,為所有模型中最高,顯示其出色的風險控制能力。

Claude Sonnet 4.5 表現較為平淡,回報率為 - 30.81%,總虧損為 3081 美元。其較低的交易頻率(36 次)和僅 25% 的勝率反映出它偏向謹慎的策略,但最大盈利 2112 美元與最大虧損 1579 美元顯示出其單筆交易的差異性較小。Sharpe 值為 - 0.057,意味著其收益波動較大,風險控制不足。

Grok 4 則以 - 45.3% 的回報率和 4530 美元的總虧損,位居第四。它的交易頻率為 47 次,Sharpe 值為 - 0.118,最大盈利 1356 美元和最大虧損 657 美元表明其操作較為保守,難以抓住市場的大趨勢。

Gemini 2.5 Pro 在大賽中表現不佳,回報率為 - 56.71%,總虧損為 5671 美元。其 238 次交易次數為所有模型中最高,極度活躍,但勝率僅為 25.6%,Sharpe 值為 - 0.566,反映出其過度交易,回報低效。這個模型更像是一個典型的「高頻操盤手」,缺乏穩定的策略。

GPT-5 以 - 62.66% 的回報率和 6266 美元的總虧損,成為表現最差的模型。它的 116 次交易次數雖然較多,但收益極低。勝率為 26.7%,Sharpe 值為 - 0.525,表明其交易存在較大波動且虧損嚴重。最大盈利僅為 270 美元,最大虧損 621 美元,說明其缺乏有效的市場判斷和風險管理。

總體來說,來自中國的 Qwen3 Max 與 DeepSeek 在風險控制與趨勢識別上更為領先,而 GPT-5、Claude、Grok、Gemini 美國系模型則普遍虧損嚴重。

參考鏈接:

https://nof1.ai/leaderboard

https://nof1.ai/blog/TechPost1

本文來自微信公眾號 “機器之心”(ID:almosthuman2014),作者:關注AI的,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論