Alpha Arena 揭露 AI 交易缺陷：西方模型一週內損失 80% 資本

10-24

本文為機器翻譯

展示原文

比特幣雜誌

 Alpha Arena 揭露 AI 交易缺陷：西方模型一週內損失 80% 資本

AI 可以交易加密貨幣嗎？來自紐約的計算機工程師兼金融專家Jay Azhang正在通過Alpha Arena測試這個問題。該項目讓最優秀的大型語言模型 (LLM) 相互競爭，每個模型都擁有價值 1 萬美元的資本，看看哪個模型能在加密貨幣交易中賺得更多。這些模型包括 Grok 4、Claude Sonnet 4.5、 Gemini 2.5 pro、ChatGPT 5、Deepseek v3.1 和 Qwen3 Max。

現在，您可能會想“哇，這是一個好主意！”您可能會感到驚訝，在撰寫本文時，五個人工智能中有三個是在水下，其中 Qwen3 和 Deepseek（兩個中國開源模型）處於領先地位。

Alpha Arena Reveals AI Trading Flaws: Western Models Lose 80% Capital in One Week

沒錯，西方世界最強大的、閉源的、專有的人工智能，由谷歌和 OpenAI 等巨頭運營，在短短一週多的時間內損失了超過 8,000 美元，相當於其加密交易資本的 80%，而東方的開源同行卻一片紅火。

迄今為止最成功的交易？Qwen3——資金充裕，步入正軌——持有簡單的20倍比特幣多頭倉位。Grok 4——不出所料——在大部分競爭對手中一直以10倍槓桿做多Doge……一度與Deepseek並駕齊驅，位居榜首，而Deepseek現在已跌近20%。或許埃隆·馬斯克應該發個狗狗Dogememe包之類的推文，讓Grok擺脫困境。

與此同時，谷歌的Gemini卻持續看跌，做空所有可供交易的加密資產，這一立場與他們過去 15 年來的一般加密政策相呼應。

最後但同樣重要的是 ChatGibitty，它連續一週讓所有可能發生的壞交易都變成了現實，這真是了不起的成就！要達到這種程度需要技巧，尤其是 Qwen3 只是做多比特幣然後去釣魚。如果這就是閉源 AI 所能提供的最好的東西，那麼 OpenAI 或許應該保持閉源，別再讓我們失望了。

Alpha Arena 揭露 AI 交易缺陷：西方模型一週內損失 80% 資本 3

人工智能的新基準

玩笑歸玩笑，在加密貨幣交易領域讓人工智能模型相互競爭的想法確實蘊含著深刻的道理。首先，人工智能無法預先訓練加密貨幣交易知識測試的答案，因為加密貨幣交易知識測試的不可預測性是其他基準測試所面臨的問題。換句話說，許多人工智能模型在訓練中會獲得其中一些測試的答案，因此它們在測試中自然會表現良好。但一些研究表明，對其中一些測試的細微改動會導致人工智能基準測試結果截然不同。

這場爭議引出了一個問題：智力的終極測試是什麼？根據鋼鐵俠愛好者、Grok 4 的創造者埃隆·馬斯克的說法，預測未來才是智力的終極衡量標準。

預測未來的能力是衡量智力的最佳標準https://t.co/W6WriRGt9N
— 伊隆·馬斯克（@elonmusk） 2025 年 9 月 5 日

讓我們面對現實吧，沒有什麼未來比加密貨幣的短期價格更不確定了。用 Azhang 的話來說，“我們Alpha Arena 的目標是讓基準測試更貼近現實世界，而市場正是實現這一目標的完美之選。市場是動態的、對抗性的、開放的，並且具有無限的不可預測性。它們以靜態基準測試無法企及的方式挑戰人工智能。——市場是對智能的終極考驗。”

這種對市場的洞見深深植根於比特幣誕生的自由主義原則。一百多年前，穆瑞·羅斯巴德和米爾頓·弗裡德曼等經濟學家就提出，市場從根本上來說無法被中央計劃者預測，只有那些在做出真正經濟決策、且有損失風險的個人，才能做出理性的經濟計算。

換句話說，市場是最難預測的，因為它取決於全世界聰明人的個人觀點和決定，因此，它是對智力的最佳測試。

Azhang 在其項目描述中提到，AI 的交易目標不僅僅是盈利，而是風險調整後的收益。風險維度至關重要，因為一筆糟糕的交易就可能抹去之前的所有收益，例如 Grok 4 投資組合的崩盤。

還有一個問題：這些模型是否從加密貨幣交易經驗中學習？鑑於人工智能模型的預訓練成本非常高，這在技術上並不容易實現。它們可以根據自身或他人的交易歷史進行微調，甚至可以將近期交易保存在短期記憶或上下文窗口中，但這也只能到此為止。最終，正確的人工智能交易模型可能必須真正從自身經驗中學習，這項技術最近在學術界被宣佈，但距離成為產品還有很長的路要走。麻省理工學院稱之為自適應人工智能模型。

我們怎麼知道這不僅僅是運氣？

對該項目及其迄今為止成果的另一項分析是，它可能與“隨機遊走”難以區分。隨機遊走類似於每次決策都擲骰子。這在圖表上看起來會是什麼樣子？其實，有一個模擬器可以用來回答這個問題；實際上，它看起來並不會有什麼不同。

納西姆·塔勒布（Nassim Taleb）等知識分子在其著作《反脆弱》（Antifragile）中也對市場中的運氣問題進行了細緻的闡述。他在書中指出，從統計學的角度來看，一個交易員（比如本例中的Qwen3）連續一週都很幸運，這完全正常，也完全有可能！這讓他看起來似乎擁有超凡的推理能力。塔勒布的論證遠不止於此，他認為華爾街有足夠多的交易員，其中一位很容易連續20年都很幸運，從而獲得神一般的聲譽，周圍的人都認為這位交易員是個天才，直到運氣耗盡為止。

因此， Alpha Arena 要生成有價值的數據，實際上必須運行很長時間，並且其模式和結果也需要獨立複製，並投入真正的資本，然後才能將其與隨機遊走區分開來。

總而言之，很高興看到像 DeepSeek 這樣開源且經濟高效的模型迄今為止的表現優於閉源模型。Alpha Arena 一直以來都是娛樂的熱門來源，過去一週它在 X.com 上迅速走紅。至於它的最終走向，誰也說不準；Alpha的創造者為五個聊天機器人投入 5 萬美元進行加密貨幣投資的冒險，最終能否獲得回報，我們拭目以待。

這篇文章《Alpha Arena 揭示人工智能交易缺陷：西方模型一週內損失 80% 的資本》最初出現在比特幣雜誌上，由Juan Galt撰寫。