【導讀】在32道高等數學測試中,LLM表現出色,平均能得分90.4(按百分制計算)。GPT-4o和Mistral AI更是幾乎沒錯!向量計算、幾何分析、積分計算、優化問題等,高等AI模型輕鬆拿捏。研究發現,再提示(Re-Prompting)對提升準確率至關重要。
朋友會離開你,兄弟會背叛你。
但數學不會,數學不會就是不會。
相信學不好高等數學的人,對上面這個梗深有感悟。
數學不會好像是真不會:出口成章也好,身體素質驚人也好,面對微積分,能有什麼招?
那大語言模型(LLMs)是不是也是一個偏科生呢?
最新研究用32道測試題,總計320分,涵蓋4大主題:向量計算、幾何分析、積分計算、優化問題,評估了AI模型在高等數學的表現。
總體而言,結果表明LLM高等數學不錯,平均得分為90.4(按百分制計算):
-ChatGPT 4o和Mistral AI在不同類型的數學問題上表現穩定,準確率較高,展現出較強的數學推理能力和可靠性。
-Gemini Advanced(1.5 Pro)和Meta AI在某些積分和優化問題上表現較弱,顯示出需要針對性優化的領域。
其中, ChatGPT 4o和Mistral AI表現優異,並列第一:
有7款AI模型參與了測試 : ChatGPT 4o、Gemini Advanced(1.5 Pro)、Copilot Pro、Claude 3.5 Sonnet、Meta AI、Mistral AI、Perplexity。
此外,研究發現再提示(Re-Prompting)對提升準確率至關重要。
某些情況下,模型首次回答錯誤,但在重新提示後能夠修正答案,這表明改進交互方式可提升模型解題效果。
新研究對教育工作者、研究人員和開發者在數學教育與實踐應用中的LLM選擇具有重要參考價值,同時也為LLM技術的進一步優化和發展提供了關鍵的靈感。
論文鏈接:https://arxiv.org/abs/2503.03960
LLM在微積分能帶來什麼驚喜?
微積分以其複雜的概念和嚴謹的解題方法,是測試LLM能力極限的理想領域。
解決微積分問題不僅需要計算的準確性,還要求模型具備深厚的數學原理理解能力、邏輯推理能力,以及將理論概念應用於實際問題的能力。
新研究所選問題涵蓋微積分的多個重要主題,包括向量分析、幾何解釋、積分計算和優化問題。
通過評估這些模型在解題過程中的表現,希望識別它們的優勢、劣勢和可改進之處,從而推動更強大、更可靠的LLM技術的發展。
隨著教育機構和工業界越來越多地探索AI技術的應用,深入瞭解LLM在處理複雜數學問題方面的能力和侷限性變得至關重要。
新研究的分析結果對多個群體具有重要價值,包括開發AI輔助學習工具的教育工作者、致力於提升LLM能力的研究人員,以及希望在實際應用中部署這些技術的從業者。
此外,本研究還回應了對AI模型在專業領域進行系統評估的日益增長的需求。
通過精心設計的一組測試題和詳細的評分體系,本研究為評估LLM在數學問題求解方面的表現提供了一種方法論框架。
此外,本研究還引入了重新提示(re-prompting)機制,並對錯誤模式進行了深入分析,以探討模型的學習能力以及提高其準確性和可靠性的潛在策略。這些研究結果有助於更全面地理解LLM在數學推理中的優勢和侷限性,併為未來的優化提供有價值的參考。
研究方法
大型語言模型(LLMs)在架構和訓練方法上,大多集中在語言處理任務上,但也各具特色:
ChatGPT 4o以其先進的自然語言理解和生成能力而聞名;
Gemini Advanced with 1.5 Pro旨在處理高性能語言任務;
Copilot Pro專注於編程和數學問題求解;
Claude 3.5 Sonnet強調準確且具上下文意識的文本生成;
Meta AI旨在提供多功能的語言理解和生成;
Mistral AI以其高效且精準的語言處理能力著稱;
Perplexity則專為複雜問題求解和推理任務設計。
現在就關心一個問題:這些模型高等數學到底會不會?
這次評估共涉及32道測試題,總分320分。
如果模型在首次嘗試中給出正確答案,則得10分;如果在第二次嘗試中找到正確答案,則得5分。
測試題涵蓋多個微積分主題,包括:向量計算與幾何解釋、積分計算及其應用、優化問題與約束優化、微分方程及其應用以及高級微積分概念(如格林定理、曲線積分等)。
模型的評估主要基於兩個核心標準:
準確性(Accuracy) ——指模型給出的答案是否正確。
解題過程(Step-by-Step Explanation) ——指模型是否能夠提供清晰、正確的解題步驟。
為了進一步測試模型的錯誤修正能力,本研究引入了重新提示(re-prompting)機制。
如果模型首次解答錯誤,則會再次提示它解決該問題,並對修正後的答案進行評估。該機制有助於更全面地分析模型的問題解決能力及其從錯誤中學習和修正答案的能力。
測試結果
總體來看,所有LLM的平均得分為90.4(按百分制計算),顯示出較強的整體表現。其中ChatGPT 4o和Mistral AI得分310,並列第一,具體結果如下:
ChatGPT 4o和Mistral AI等模型展現出了較高的準確性和精確度,而其他模型在某些類型的問題上表現較為吃力。
比如,在關於向量分解的問題上,所有模型都正確計算了一個向量在另一個向量上的投影以及正交分量,表明它們在處理向量分解問題時具有較高的準確性和穩定性。
找到向量u=3i−5j+2k在向量v=7i+j−2k上的投影,以及u中與v正交的分量,顯示所有步驟。
然而,不同模型在具體問題的解答能力上仍存在明顯差異。
比如,求正交向量上,只有Claude 3.5 Sonnet最初回答錯誤,但在重提示後糾正了錯誤。
求一個同時正交於向量u=⟨4,−3,1⟩和v=⟨2,5,3⟩的單位向量,並展示所有步驟。
而在優化領域的求極值上,谷歌的Gemini Adavnced with 1.5 Pro直接翻車,提示它錯誤後,沒有改正過來,兩次持續出錯,暴露了其在優化問題上的特定弱點。
檢查函數的相對極值和鞍點:f(x, y)=-5x^2+4xy-y^2+16x+10。並給出全部步驟。
Meta AI在求一道積分問題上,回答錯誤;而ChatGPT 4o經過再提示後,幾乎不會出錯。
總體二樣,大語言模型,在微積分測試中的表現存在差異。
其他20多個問題的具體測試結果,請參考原文。
結果分析
對LLMs在微積分測試中的表現分析揭示了多個關鍵見解和趨勢,這對於理解它們在數學問題求解中的能力和侷限性至關重要。
ChatGPT 4o和Mistral AI以96.9%的得分並列第一,表現最優。
ChatGPT 4o在廣泛的問題類型中均表現出色,展現了其強大的數學推理能力。而Mistral AI在向量微積分和多元微積分方面表現尤為突出。Gemini Advanced、Claude 3.5 Sonnet和Meta AI的表現相同,得分均為87.5%。
LLM的優勢
簡單問題的穩定性:ChatGPT 4o 和Mistral AI在解答基礎性問題(如向量計算、幾何解釋和基本求導)時展現出一致的準確性。這表明它們在處理基礎微積分概念方面具備較強的穩健性和可靠性。
重新提示(Re-prompting)的有效性:在多次測試中,某些模型最初給出的答案錯誤,但在重新提示後成功修正。這表明通過迭代提問和反饋機制可以有效提升模型的表現。
特定領域的高準確性:在涉及方向餘弦、偏導數、曲線積分等問題時,所有模型的解答均正確。這表明它們在這些微積分專題上具備較強的共識和理解能力。
LLM的劣勢
複雜積分計算:在處理複雜積分(如迭代積分、三重積分和曲線下區域面積計算)時,模型普遍表現不佳。這表明它們在微積分求解方面仍有待改進。
優化問題:部分模型(尤其是Gemini Advanced with 1.5 Pro)在求解優化問題時表現較弱,尤其是在相對極值和鞍點的識別方面存在困難,說明其優化技術仍需加強。
持續性錯誤:某些模型在特定問題上反覆出錯。例如,Meta AI在積分計算上存在較大困難,而Gemini Advanced with 1.5 Pro在梯度計算上表現不佳。這些持續性錯誤表明其算法可能需要進一步優化。
重新提示(Re-prompting)的重要性
本研究強調了重新提示機制在提高解題準確性方面的重要作用。
多個模型在第一次解答錯誤後,通過重新提示成功修正答案。
這表明迭代提問和反饋機制可以顯著提高模型的解題能力,尤其是在複雜問題上,初始錯誤的可能性更大,而重新提示可以提高最終正確率。
對LLM發展的啟示
本研究對各模型的表現進行了詳細分析,為LLM技術的持續優化提供了有價值的見解。
研究結果揭示了當前LLM的優勢與不足,為未來的定向改進提供了清晰的路線圖,尤其是在以下幾個方面:複雜積分計算、優化問題求解、梯度計算的精確性。
如果開發者能針對這些弱點進行優化,在數學問題求解中,將有助於提升LLM的整體性能和可靠性。
本研究的結果對教育工作者、研究人員和開發者都具有重要意義,尤其是在數學教育和實際應用方面:
表現優異的模型(如ChatGPT 4o 和 Mistral AI):展現出了較強的數學問題求解能力,使它們成為可靠的數學輔助工具,可應用於教育領域。
其他模型的不足:指明瞭改進方向,為LLM技術的進一步優化提供了參考。未來,隨著LLM在數學領域的 不斷進步,它們有望成為更強大、更可靠的數學教育和問題求解工具,在教學、科研和工業應用等多個領域發揮重要作用。
參考資料:
https://arxiv.org/abs/2503.03960
本文來自微信公眾號“新智元”,編輯:KingHZ ,36氪經授權發佈。