别再提通用人工智能了——顶尖人工智能模型在数学方面仍然举步维艰

03-18

本文为机器翻译

展示原文

通用人工智慧（ AGI ）通常被描述为能够在多个领域中像人类一样运作的系统。本周公布的MATHVISTA基准测试结果表明，目前的模型距离这一目标仍有差距。

微软研究院、Sahara AI 和埃默里大学的研究人员测试了通用智慧的核心能力，即基于视觉资讯（包括图表、图形和示意图）的数学推理能力。

在测试的 12 个基础模型中，包括 ChatGPT、 Gemini和 Claude， GPT-4 Vision 的得分最高，为 49.9%。人类参与者的平均得分为 60.3%，这凸显了当前人工智慧系统与通常与通用人工智慧 (AGI) 相关的更广泛的推理能力之间的差距。

微软研究院首席研究员郝成告诉Decrypt ：“我们希望机器能够完成普通人日常生活中可以做的事情。这基本上也是所有人对通用人工智慧（AGI）的追求。”

该专案透过将问题转化为图像、图表和曲线，测试模型是否能够准确解释视觉资讯并解决多步骤的数学和逻辑问题——这些技能超越了单纯的文字模式匹配。

模型在处理这些任务时仍然很吃力，衡量这种限制也很困难。

程的团队在审查现有的评估资料集时发现，许多资料集包含一些不需要视觉推理的问题。模型通常只依靠文本就能得出正确答案。

「这并不理想，」程说。

MathVista于 2023 年 10 月在 GitHub 和 Hugging Face 上发布。据微软研究院称，自发布以来，该软体已被下载超过 275,000 次，其中上个月的下载量超过 13,000 次。

然而，创建该资料集需要的不仅仅是标准的资料标注。微软研究院需要标注员能够解决算术、代数、几何和统计等方面的问题，同时还要能够区分更深层的数学推理（例如解读图表或解方程式）和更简单的任务（例如计数或读取数字）。

经过试点阶段，微软选择 Sahara AI 为该计划提供支援。该公司提供了训练有素的标注人员、客制化工作流程和多阶段品质检查，最终产生了基准测试中使用的 6000 多个多模态样本。

Sahara AI执行长、南加州大学电脑科学副教授Sean Ren表示，如果没有可靠的基准，衡量机器智慧在更广泛的领域取得的进展就变得困难。

「资料污染存在一个微妙之处，一旦我们开始使用这个资料集进行测试，这些结果就会被下一个版本吸收，」Ren告诉Decrypt 。 “所以你无法真正确定他们只是在解决一个数据集的问题，还是他们具备了解决该问题的能力。”

如果基准答案出现在模型的训练资料中，高分可能反映的是记忆而非推理。这使得判断人工智慧系统是否真正进步变得更加困难。

研究人员也指出训练资料有其限制。网路上大部分公开资料已纳入模型资料集。

程说：“你肯定需要一些方法将一些新知识融入这个过程中。我认为这类事情必须基于高品质的数据，这样我们才能真正突破知识的壁垒。”

一种提议的途径是利用模拟环境，让模型能够互动、从经验中学习，并透过回馈进行改进。

程说：“你在某个沙盒里创建一个现实世界的镜像世界，这样模型就可以像人类在现实生活中那样玩耍和做很多事情，从而基本上打破互联网的界限。”

Ren表示，人类在改进人工智慧系统方面仍扮演著重要角色。虽然模型可以快速产生内容，但人类在评估内容方面仍然更胜一筹。

他说：“人类和人工智慧之间的这种差距，即他们擅长什么、不擅长什么，都可以加以利用，从而在未来真正改进人工智慧。”

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢