別再提通用人工智能了——頂尖人工智能模型在數學方面仍然舉步維艱

avatar
Decrypt
03-18
本文為機器翻譯
展示原文

通用人工智慧( AGI )通常被描述為能夠在多個領域中像人類一樣運作的系統。本周公布的MATHVISTA基準測試結果表明,目前的模型距離這一目標仍有差距。

微軟研究院、Sahara AI 和埃默里大學的研究人員測試了通用智慧的核心能力,即基於視覺資訊(包括圖表、圖形和示意圖)的數學推理能力。

在測試的 12 個基礎模型中,包括 ChatGPT、 Gemini和 Claude, GPT-4 Vision 的得分最高,為 49.9%。人類參與者的平均得分為 60.3%,這凸顯了當前人工智慧系統與通常與通用人工智慧 (AGI) 相關的更廣泛的推理能力之間的差距。

微軟研究院首席研究員郝成告訴Decrypt :“我們希望機器能夠完成普通人日常生活中可以做的事情。這基本上也是所有人對通用人工智慧(AGI)的追求。”

該專案透過將問題轉化為圖像、圖表和曲線,測試模型是否能夠準確解釋視覺資訊並解決多步驟的數學和邏輯問題——這些技能超越了單純的文字模式匹配。

模型在處理這些任務時仍然很吃力,衡量這種限制也很困難。

程的團隊在審查現有的評估資料集時發現,許多資料集包含一些不需要視覺推理的問題。模型通常只依靠文本就能得出正確答案。

「這並不理想,」程說。

MathVista於 2023 年 10 月在 GitHub 和 Hugging Face 上發布。據微軟研究院稱,自發布以來,該軟體已被下載超過 275,000 次,其中上個月的下載量超過 13,000 次。

然而,創建該資料集需要的不僅僅是標準的資料標註。微軟研究院需要標註員能夠解決算術、代數、幾何和統計等方面的問題,同時還要能夠區分更深層的數學推理(例如解讀圖表或解方程式)和更簡單的任務(例如計數或讀取數字)。

經過試點階段,微軟選擇 Sahara AI 為該計畫提供支援。該公司提供了訓練有素的標註人員、客製化工作流程和多階段品質檢查,最終產生了基準測試中使用的 6000 多個多模態樣本。

Sahara AI執行長、南加州大學電腦科學副教授Sean Ren表示,如果沒有可靠的基準,衡量機器智慧在更廣泛的領域取得的進展就變得困難。

「資料污染存在一個微妙之處,一旦我們開始使用這個資料集進行測試,這些結果就會被下一個版本吸收,」Ren告訴Decrypt 。 “所以你無法真正確定他們只是在解決一個數據集的問題,還是他們具備了解決該問題的能力。”

如果基準答案出現在模型的訓練資料中,高分可能反映的是記憶而非推理。這使得判斷人工智慧系統是否真正進步變得更加困難。

研究人員也指出訓練資料有其限制。網路上大部分公開資料已納入模型資料集。

程說:“你肯定需要一些方法將一些新知識融入這個過程中。我認為這類事情必須基於高品質的數據,這樣我們才能真正突破知識的壁壘。”

一種提議的途徑是利用模擬環境,讓模型能夠互動、從經驗中學習,並透過回饋進行改進。

程說:“你在某個沙盒裡創建一個現實世界的鏡像世界,這樣模型就可以像人類在現實生活中那樣玩耍和做很多事情,從而基本上打破互聯網的界限。”

Ren表示,人類在改進人工智慧系統方面仍扮演著重要角色。雖然模型可以快速產生內容,但人類在評估內容方面仍然更勝一籌。

他說:“人類和人工智慧之間的這種差距,即他們擅長什麼、不擅長什麼,都可以加以利用,從而在未來真正改進人工智慧。”

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
58
收藏
18
評論