Alpha Arena 揭露 AI 交易缺陷：西方模型一周内损失 80% 资本

10-24

本文为机器翻译

展示原文

比特币杂志

 Alpha Arena 揭露 AI 交易缺陷：西方模型一周内损失 80% 资本

AI 可以交易加密货币吗？来自纽约的计算机工程师兼金融专家Jay Azhang正在通过Alpha Arena测试这个问题。该项目让最优秀的大型语言模型 (LLM) 相互竞争，每个模型都拥有价值 1 万美元的资本，看看哪个模型能在加密货币交易中赚得更多。这些模型包括 Grok 4、Claude Sonnet 4.5、 Gemini 2.5 pro、ChatGPT 5、Deepseek v3.1 和 Qwen3 Max。

现在，您可能会想“哇，这是一个好主意！”您可能会感到惊讶，在撰写本文时，五个人工智能中有三个是在水下，其中 Qwen3 和 Deepseek（两个中国开源模型）处于领先地位。

Alpha Arena Reveals AI Trading Flaws: Western Models Lose 80% Capital in One Week

没错，西方世界最强大的、闭源的、专有的人工智能，由谷歌和 OpenAI 等巨头运营，在短短一周多的时间内损失了超过 8,000 美元，相当于其加密交易资本的 80%，而东方的开源同行却一片红火。

迄今为止最成功的交易？Qwen3——资金充裕，步入正轨——持有简单的20倍比特币多头仓位。Grok 4——不出所料——在大部分竞争对手中一直以10倍杠杆做多Doge……一度与Deepseek并驾齐驱，位居榜首，而Deepseek现在已跌近20%。或许埃隆·马斯克应该发个狗狗Dogememe包之类的推文，让Grok摆脱困境。

与此同时，谷歌的Gemini却持续看跌，做空所有可供交易的加密资产，这一立场与他们过去 15 年来的一般加密政策相呼应。

最后但同样重要的是 ChatGibitty，它连续一周让所有可能发生的坏交易都变成了现实，这真是了不起的成就！要达到这种程度需要技巧，尤其是 Qwen3 只是做多比特币然后去钓鱼。如果这就是闭源 AI 所能提供的最好的东西，那么 OpenAI 或许应该保持闭源，别再让我们失望了。

Alpha Arena 揭露 AI 交易缺陷：西方模型一周内损失 80% 资本 3

人工智能的新基准

玩笑归玩笑，在加密货币交易领域让人工智能模型相互竞争的想法确实蕴含着深刻的道理。首先，人工智能无法预先训练加密货币交易知识测试的答案，因为加密货币交易知识测试的不可预测性是其他基准测试所面临的问题。换句话说，许多人工智能模型在训练中会获得其中一些测试的答案，因此它们在测试中自然会表现良好。但一些研究表明，对其中一些测试的细微改动会导致人工智能基准测试结果截然不同。

这场争议引出了一个问题：智力的终极测试是什么？根据钢铁侠爱好者、Grok 4 的创造者埃隆·马斯克的说法，预测未来才是智力的终极衡量标准。

预测未来的能力是衡量智力的最佳标准https://t.co/W6WriRGt9N
— 伊隆·马斯克（@elonmusk） 2025 年 9 月 5 日

让我们面对现实吧，没有什么未来比加密货币的短期价格更不确定了。用 Azhang 的话来说，“我们Alpha Arena 的目标是让基准测试更贴近现实世界，而市场正是实现这一目标的完美之选。市场是动态的、对抗性的、开放的，并且具有无限的不可预测性。它们以静态基准测试无法企及的方式挑战人工智能。——市场是对智能的终极考验。”

这种对市场的洞见深深植根于比特币诞生的自由主义原则。一百多年前，穆瑞·罗斯巴德和米尔顿·弗里德曼等经济学家就提出，市场从根本上来说无法被中央计划者预测，只有那些在做出真正经济决策、且有损失风险的个人，才能做出理性的经济计算。

换句话说，市场是最难预测的，因为它取决于全世界聪明人的个人观点和决定，因此，它是对智力的最佳测试。

Azhang 在其项目描述中提到，AI 的交易目标不仅仅是盈利，而是风险调整后的收益。风险维度至关重要，因为一笔糟糕的交易就可能抹去之前的所有收益，例如 Grok 4 投资组合的崩盘。

还有一个问题：这些模型是否从加密货币交易经验中学习？鉴于人工智能模型的预训练成本非常高，这在技术上并不容易实现。它们可以根据自身或他人的交易历史进行微调，甚至可以将近期交易保存在短期记忆或上下文窗口中，但这也只能到此为止。最终，正确的人工智能交易模型可能必须真正从自身经验中学习，这项技术最近在学术界被宣布，但距离成为产品还有很长的路要走。麻省理工学院称之为自适应人工智能模型。

我们怎么知道这不仅仅是运气？

对该项目及其迄今为止成果的另一项分析是，它可能与“随机游走”难以区分。随机游走类似于每次决策都掷骰子。这在图表上看起来会是什么样子？其实，有一个模拟器可以用来回答这个问题；实际上，它看起来并不会有什么不同。

纳西姆·塔勒布（Nassim Taleb）等知识分子在其著作《反脆弱》（Antifragile）中也对市场中的运气问题进行了细致的阐述。他在书中指出，从统计学的角度来看，一个交易员（比如本例中的Qwen3）连续一周都很幸运，这完全正常，也完全有可能！这让他看起来似乎拥有超凡的推理能力。塔勒布的论证远不止于此，他认为华尔街有足够多的交易员，其中一位很容易连续20年都很幸运，从而获得神一般的声誉，周围的人都认为这位交易员是个天才，直到运气耗尽为止。

因此， Alpha Arena 要生成有价值的数据，实际上必须运行很长时间，并且其模式和结果也需要独立复制，并投入真正的资本，然后才能将其与随机游走区分开来。

总而言之，很高兴看到像 DeepSeek 这样开源且经济高效的模型迄今为止的表现优于闭源模型。Alpha Arena 一直以来都是娱乐的热门来源，过去一周它在 X.com 上迅速走红。至于它的最终走向，谁也说不准；Alpha的创造者为五个聊天机器人投入 5 万美元进行加密货币投资的冒险，最终能否获得回报，我们拭目以待。

这篇文章《Alpha Arena 揭示人工智能交易缺陷：西方模型一周内损失 80% 的资本》最初出现在比特币杂志上，由Juan Galt撰写。