고급 수학을 쉽게 마스터하고, LLM 평균 점수 90+, GPT-4o, Mistral은 거의 정확함

avatar
36氪
03-11
이 기사는 기계로 번역되었습니다
원문 표시
以下是文章内容的韩语翻译: 【导读】在32道高等数学测试中, LLM表现出色, 平均能得分90.4(按百分制计算)。 GPT-4o和Mistral AI更是几乎没错! 向量计算、几何分析、积分计算、优化问题等, 高等AI模型轻松拿捏。 研究发现, 再提示(Re-Prompting)对提升准确率至关重要。 朋友会离开你, 兄弟会背叛你。 但 数学不会, 数学不会就是不会。 相信学不好高等数学的人, 对上面这个梗深有感悟。 数学不会好像是真不会: 出口成章也好, 身体素质惊人也好, 面对微积分, 能有什么招? 那大语言模型(LLMs)是不是也是一个偏科生呢? 总体而言, 结果表明LLM高等数学不错, 平均得分为90.4(按百分制计算): -ChatGPT 4o和Mistral AI在不同类型的数学问题上表现稳定, 准确率较高, 展现出较强的数学推理能力和可靠性。 -Gemini Advanced(1.5 Pro)和Meta AI在某些积分和优化问题上表现较弱, 显示出需要针对性优化的领域。 其中, ChatGPT 4o和Mistral AI表现优异, 并列第一。 此外, 研究发现再提示(Re-Prompting)对提升准确率至关重要。 新研究对教育工作者、研究人员和开发者在 数学教育与实践 应用中的LLM选择具有重要参考价值, 同时也为LLM技术的进一步优化和发展提供了关键的灵感。 LLM在微积分能带来什么惊喜? 新研究所选问题涵盖微积分的多个重要主题, 包括向量分析、几何解释、积分计算和优化问题。 通过评估这些模型在解题过程中的表现, 希望识别它们的优势、劣势和可改进之处, 从而推动更强大、更可靠的LLM技术的发展。 新研究的分析结果对多个群体具有重要价值, 包括开发AI辅助学习工具的教育工作者、致力于提升LLM能力的研究人员, 以及希望在实际应用中部署这些技术的从业者。 研究方法 现在就关心一个问题: 这些模型高等数学到底会不会? 这次评估共涉及32道测试题, 总分320分。 模型的评估主要基于两个核心标准: 准确性(Accuracy) ——指模型给出的答案是否正确。 解题过程(Step-by-Step Explanation) ——指模型是否能够提供清晰、正确的解题步骤。 为了进一步测试模型的错误修正能力, 本研究引入了重新提示(re-prompting)机制。 测试结果 总体来看, 所有LLM的平均得分为90.4(按百分制计算), 显示出较强的整体表现。 其中ChatGPT 4o和Mistral AI得分310, 并列第一。 ChatGPT 4o和Mistral AI等模型展现出了较高的准确性和精确度, 而其他模型在某些类型的问题上表现较为吃力。

比如,求正交向量上,只有 Claude 3.5 Sonnet 最初回答错误,但在重提示后纠正了错误。

求一个同时正交于向量 u=⟨4,-3,1⟩和 v=⟨2,5,3⟩的单位向量,并展示所有步骤。

而在优化领域的求极值上,谷歌的 Gemini Adavnced with 1.5 Pro 直接翻车,提示它错误后,没有改正过来,两次持续出错,暴露了其在优化问题上的特定弱点。

检查函数的相对极值和鞍点:f(x, y)=-5x^2+4xy-y^2+16x+10。并给出全部步骤。

Meta AI 在求一道积分问题上,回答错误;而 ChatGPT 4o 经过再提示后,几乎不会出错。

总体二样,大语言模型,在微积分测试中的表现存在差异。

其他 20 多个问题的具体测试结果,请参考原文。

结果分析

对 LLMs 在微积分测试中的表现分析揭示了多个关键见解和趋势,这对于理解它们在数学问题求解中的能力和局限性至关重要。

ChatGPT 4o 和 Mistral AI 以 96.9% 的得分并列第一,表现最优。

ChatGPT 4o 在广泛的问题类型中均表现出色,展现了其强大的数学推理能力。而 Mistral AI 在向量微积分和多元微积分方面表现尤为突出。Gemini Advanced、Claude 3.5 Sonnet 和 Meta AI 的表现相同,得分均为 87.5%。

LLM 的优势

简单问题的稳定性:ChatGPT 4o 和 Mistral AI 在解答基础性问题(如向量计算、几何解释和基本求导)时展现出一致的准确性。这表明它们在处理基础微积分概念方面具备较强的稳健性和可靠性。

重新提示(Re-prompting)的有效性:在多次测试中,某些模型最初给出的答案错误,但在重新提示后成功修正。这表明通过迭代提问和反馈机制可以有效提升模型的表现。

特定领域的高准确性:在涉及方向余弦、偏导数、曲线积分等问题时,所有模型的解答均正确。这表明它们在这些微积分专题上具备较强的共识和理解能力。

LLM 的劣势

复杂积分计算:在处理复杂积分(如迭代积分、三重积分和曲线下区域面积计算)时,模型普遍表现不佳。这表明它们在微积分求解方面仍有待改进。

优化问题:部分模型(尤其是 Gemini Advanced with 1.5 Pro)在求解优化问题时表现较弱,尤其是在相对极值和鞍点的识别方面存在困难,说明其优化技术仍需加强。

持续性错误:某些模型在特定问题上反复出错。例如,Meta AI 在积分计算上存在较大困难,而 Gemini Advanced with 1.5 Pro 在梯度计算上表现不佳。这些持续性错误表明其算法可能需要进一步优化。

重新提示(Re-prompting)的重要性

本研究强调了重新提示机制在提高解题准确性方面的重要作用。

多个模型在第一次解答错误后,通过重新提示成功修正答案。

这表明迭代提问和反馈机制可以显著提高模型的解题能力,尤其是在复杂问题上,初始错误的可能性更大,而重新提示可以提高最终正确率。

对 LLM 发展的启示

本研究对各模型的表现进行了详细分析,为 LLM 技术的持续优化提供了有价值的见解。

研究结果揭示了当前 LLM 的优势与不足,为未来的定向改进提供了清晰的路线图,尤其是在以下几个方面:复杂积分计算、优化问题求解、梯度计算的精确性。

如果开发者能针对这些弱点进行优化,在数学问题求解中,将有助于提升 LLM 的整体性能和可靠性。

本研究的结果对教育工作者、研究人员和开发者都具有重要意义,尤其是在数学教育和实际应用方面:

表现优异的模型(如 ChatGPT 4o 和 Mistral AI):展现出了较强的数学问题求解能力,使它们成为可靠的数学辅助工具,可应用于教育领域。

其他模型的不足:指明了改进方向,为 LLM 技术的进一步优化提供了参考。未来,随着 LLM 在数学领域的 不断进步,它们有望成为更强大、更可靠的数学教育和问题求解工具,在教学、科研和工业应用等多个领域发挥重要作用。

参考资料:

https://arxiv.org/abs/2503.03960

本文来自微信公众号"新智元",编辑:KingHZ ,36氪经授权发布。

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트