谷歌Gemini 2.5 Pro 在人工智能“智商”大赛中荣登编码排行榜和门萨测试榜首

avatar
Decrypt
05-09
本文为机器翻译
展示原文

谷歌最近推出的Gemini 2.5 Pro在编程排行榜上跃居榜首,在著名的WebDev Arena中击败了Claude——这是一个类似于LLM竞技场的非宗派排名网站,但专注于衡量人工智能模型在编程方面的表现。这一成就是在谷歌致力于将其旗舰人工智能模型定位为编程和推理任务领导者的背景下实现的。

今年早些时候发布的Gemini 2.5 Pro在多个类别中排名第一,包括编程、风格控制和创意写作。该模型的海量上下文窗口——一百万个代币,很快将扩展到两百万个——使其能够处理大型代码库和复杂项目,即使是最接近的竞争对手也会被这些项目难住。作为参考,像ChatGPT和Claude 3.7 Sonnet这样强大的模型只能处理多达12.8万个代币。

Gemini还拥有所有人工智能模型中最高的"智商"。TrackingAI通过使用Mensa挪威分部的口头问题,进行了标准化的门萨测试,创建了一种比较人工智能模型的标准方法。

Gemini 2.5 Pro在这些测试中得分高于竞争对手,即使使用的是训练数据中未公开的定制问题。

在离线测试中,智商得分为115,新版Gemini属于"聪明人"行列,而普通人类智力得分在85到114分之间。但是,人工智能拥有智商的概念需要进一步解释。人工智能系统没有像人类那样的智商,因此不如将这个基准视为推理基准性能的比喻。

在专门为人工智能设计的基准测试中,Gemini 2.5 Pro在2025年AIME数学测试中得分86.7%,在GPQA科学评估中得分84.0%。在一个名为人类最后考试(HLE)的更新、更难的基准测试中,该模型得分18.8%,超过了OpenAI的o3 mini(14%)和Claude 3.7 Sonnet(8.9%),在性能提升方面令人瞩目。

Gemini 2.5 Pro的新版本现已免费提供(有速率限制)给所有Gemini用户。谷歌此前将此版本描述为2.5 Pro的"实验版本",是其"思考模型"系列的一部分,旨在通过推理来生成响应,而不仅仅是生成文本。

尽管并非在每个基准测试中都获胜,但Gemini凭借其多功能性引起了开发者的注意。该模型可以从单个提示中创建复杂的应用程序,构建交互式网页应用、无尽跑者游戏和视觉模拟,而无需详细的指令。

我们测试了该模型,要求它修复一段损坏的HTML5代码。它生成了近1000行代码,在代码质量和对全套指令的理解方面,结果超过了之前的领先者Claude 3.7 Sonnet。

对于从事开发工作的人员来说,Gemini 2.5 Pro的输入成本为每百万代币2.50美元,输出成本为每百万代币15.00美元,定位为比一些竞争对手更便宜的选择,同时仍提供令人印象深刻的功能。

在高级版中,该人工智能模型可处理多达3万行代码,适合企业级项目。其多模态能力——可处理文本、代码、音频图像视频——增加了其他以编程为重点的模型无法匹敌的灵活性。

相关赛道:
来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论