马斯克的 xAI 推出 Grok-3:功能更强大,但它是否开辟了新局面?

avatar
Decrypt
02-18
本文为机器翻译
展示原文

由埃隆·马斯克的xAI开发的Grok-3于周一发布,该公司在展示了一个庞大的计算基础设施,并对其功能做出了大胆的宣称,这表明其野心更大。

这个公告主要关注原始计算能力、基准性能和即将推出的功能,尽管许多实际演示看起来像是其他人工智能公司已经实现的重播。

这次发布会的主角不是人工智能本身,而是"Colossus",这是一个由20万个GPU组成的庞大集群,为Grok-3的训练提供动力。

这个系统分两个阶段建成:首先是在10万个GPU上进行为期122天的同步训练,然后扩展到20万个GPU,持续92天。据xAI开发人员介绍,建设这个基础设施比开发人工智能模型本身更具挑战性。

该公司已经计划建立一个更强大的集群,马斯克表示,他们的目标是将当前的计算能力提高5倍,实际上将建造世界上最强大的GPU集群。

在性能方面,Grok-3在标准人工智能基准测试中显示出令人印象深刻的结果。基础模型(不包含思维链和推理的常规模型)在数学(AIME)、科学(GPOA)和编码(LCB)测试中一直位居榜首。

它在盲测中也表现非常出色。

xAI确认,代号为"Chocolate"的神秘模型实际上是Grok-3的早期测试版本,已经上传到LLM Arena

在这些测试中,它在所有语言模型中获得了最高的ELO评分,这意味着用户更喜欢它的答案,而不知道他们在评估哪个模型。

这可能是衡量质量最准确的方式,因为它不会给模型任何机会在基准测试中作弊。这个基准测试完全基于成千上万匿名用户的偏好和盲目选择。

Grok-3的一个专门的"推理测试版"变体,采用了内部思维链处理和额外的测试时间计算,使数学成绩更高——在2025年AIME基准测试中达到93%,而其他表现最好的模型都低于87%。

有趣的是,一个名为Grok-3 Mini Reasoning Beta的较小版本有时会超越其更大的兄弟版本,这要归功于更长的训练时间。

换句话说,全尺寸的Grok-3在获得类似的训练时长后,仍有进一步提升的空间,这看起来很有前景,因为它的参数数量更大。

但是当xAI展示Grok-3的实际能力时,这个演示更像是一场追赶游戏,而不是创新。该团队展示了该模型解决物理问题和从头编写游戏代码的能力——这些都是ChatGPT、Claude和谷歌的Gemini已经掌握的功能。

他们还推出了DeepSearch,这是一个研究代理,就像OpenAI和谷歌的类似工具一样,可以搜索网络并为给定的主题生成详细的报告。

X Premium Plus订阅者可以立即访问Grok-3,但最强大的版本和更新版本通常会在专门的独立应用程序或Grok.com上提供。

语音交互,类似于OpenAI的"高级语音模式"将在未来几周内推出,马斯克强调这不是简单的文本到语音,而是一个真正的AI语音模型,能够进行自然、富有表现力的语音。

开发者将在未来几周内获得API访问权限,以及语音转录功能,这使Grok-3成为第三方AI驱动应用程序的强大工具。

在展示了一个由Grok生成的俄罗斯方块游戏示例之后,xAI还透露了建立一个由Grok-3驱动的AI游戏工作室的计划,让开发者可以构建游戏。

目前,该模型正在缓慢推出。在撰写本文时,Decrypt尚未获得该模型的访问权限,但一些爱好者已经尝试过,到目前为止对结果感到满意。

计算机科学家Lex Friedman,人工智能领域最响亮的声音之一,赞扬了Grok-3的能力。

其他人则将其与市场领先的竞争对手进行了比较。

"Grok 3 + Thinking感觉在OpenAI最强大的模型(o1-pro,每月200美元)的水平附近,略好于DeepSeek-R1和Gemini 2.0 Flash Thinking,"前OpenAI联合创始人Andrej Karpathy在X上的一篇详细帖子中写道。"目前,向xAI团队表示祝贺,他们显然拥有巨大的速度和动力"

X用户Penny2x分享了一个由Grok-3构建的游戏——一个类似马里奥兄弟的2D平台游戏。

他们对Grok理解指令并在多次迭代中不断改进的能力印象深刻。

"我只是要求做一些调整,它就会在一个单独的文件中吐出这个游戏,我可以把它放在桌面上运行。"他在X上的一篇帖子中写道。"这太令人难以置信了。我们生活在未来。现在每个人都是开发者了。"

这个游戏可以在Thank Doge上进行测试。

该公司还确认,一旦Grok-3完全成熟并运行正确,预计在未来几个月内,就会开源Grok-2。

xAI此前在Grok-2之后开源了自己的模型,继续保持释放旧版本以促进创新的趋势——尽管Grok-2落后于顶级模型。

目前,Grok-3似乎擅长模仿其他最佳人工智能模型已经做到的事情。

真正的考验将在xAI在未来几周内推出承诺的语音功能、游戏工具和API访问时到来。现在,球在OpenAI的手中,它即将发布GPT-4.5。

Sebastian Sinclair编辑

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
1
评论