HLE“人類最後考試”首次突破60分,Eigen-1基於DeepSeek V3.1顯著領先Grok4、GPT-5

在HLE(“人類最後考試”)的專家校驗子集上,首次有系統突破60分大關!

就在最近,由耶魯大學唐相儒、王昱婕,上海交通大學徐望瀚,UCLA萬冠呈,牛津大學尹榛菲,Eigen AI金帝、王瀚銳等團隊聯合開發的Eigen-1多智能體系統實現了歷史性突破——

在HLE Bio/Chem Gold測試集上,Pass@1準確率達到48.3%,Pass@5準確率更是飆升至61.74%,首次跨越60分大關。這一成績遠超谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)。

最令人振奮的是,這一成就並非依賴閉源超大模型,而是完全基於開源的DeepSeek V3.1搭建

在這個開源底座上,研究團隊通過疊加Monitor-based RAG(隱式知識增強)、HSR(分層解法修復)、QAIR(質量感知迭代推理)三大創新機制,實現了質的飛躍。

下面詳細展開——

技術創新:三大支柱撐起60分突破

當AI開始挑戰人類知識的終極邊界,一場前所未有的較量正在上演。

當大模型在MMLU、GPQA等傳統基準上紛紛“捲到90分”時,這些測試逐漸失去了區分力。為了追蹤AI在科學推理前沿的真實進展,Center for AI Safety與Scale AI聯合推出了“人類最後的考試”(Humanity’s Last Exam,HLE)——

涵蓋數學、自然科學、工程學、人文社科等百餘領域共3000道博士級難題,被視為AI知識推理的終極試煉。

而HLE Bio/Chem Gold則是HLE的黃金標準子集,包含149道經過領域專家人工審核和糾正的題目。

相比原始HLE數據集,這個子集排除了可能存在歧義或錯誤答案的問題,確保了標籤的準確性和可靠性,因此成為評估AI科學推理能力最可信的基準。

正是在HLE Bio/Chem Gold子集上,Eigen-1系統首次跨越60分大關,而這背後離不開其三大創新機制。

1. Monitor-based RAG:告別“工具稅”的隱式檢索增強

傳統的檢索增強生成(RAG)系統就像一個頻繁暫停的視頻播放器——每次需要外部知識時,都必須中斷推理流程、構建查詢、處理結果,再重新整合上下文。

研究團隊將這種開銷形象地稱為“工具稅”(Tool Tax)——每次工具調用都會打斷思考流程,導致上下文丟失。

傳統RAG系統的“工具稅”問題在下圖的人口遺傳學案例中展現得淋漓盡致。左側顯示模型過度自信地使用錯誤公式,右側則展示了即使通過顯式RAG獲得正確公式,推理流程的中斷導致模型無法將知識重新整合到原始問題中。

Eigen-1的Monitor-based RAG徹底改變了這一範式:

隱式監控:Monitor持續監測推理流中的不確定性,像一位細心的助手,在後臺默默關注著每一個可能需要幫助的時刻。掃描推理軌跡以便在不確定時觸發RAG。

精準查詢:Querier在檢測到不確定性時,精準提取最小關鍵詞集合,避免搜索空間的不必要擴展。

無縫注入:Injector則將檢索到的知識無縫融入推理流,就像在對話中自然地補充背景信息,而不是生硬地插入引用。

實驗數據顯示,與顯式RAG相比,Monitor-based RAG將token消耗減少53.5%,將工作流迭代次數減少43.7%,同時保持了更高的準確率。

見下圖單倍型計數案例,Monitor檢測到重組約束的不確定性,Querier生成針對性查詢,Injector注入兩個關鍵事實,使模型能夠排除無效案例並得出正確的30個單倍型答案。

2. Hierarchical Solution Refinement (HSR):從“民主投票”到“層級精煉”

除了隱式知識增強,Eigen-1還革新了多智能體的協作模式。

傳統的多智能體系統採用“民主投票”機制,所有候選方案被平等對待,容易“稀釋”最優解。

而Eigen-1引入的分層解決方案精煉(HSR)打破了這種假設。HSR採用“錨點—修復”結構:一個候選作為 anchor,其餘作為參考依次修正,形成層次化協作。

在HSR框架下,每個候選解決方案輪流充當“錨點”,其他方案則作為“參考”提供針對性修正。這種設計讓強方案能夠吸收弱方案的有價值見解,而不是簡單地進行平均。

具體包括四種修復維度:邏輯補全(填補缺失的推理步驟)、數值修正(糾正計算錯誤)、方法替換(用更優策略替代較弱方法)、表達優化(提升清晰度而不改變實質)。

這種設計讓優質方案能吸收其他方案的有價值見解,而非簡單平均。

下圖通過一個圖像識別任務生動展示了HSR的工作原理。

面對昆蟲識別和花朵計數的複合任務,錨點解決方案最初選擇了ResNet(選項C),但存在部署時間計算錯誤。通過引入其他解決方案作為參考,系統進行了四類針對性修正。

3. Quality-Aware Iterative Reasoning (QAIR):質量驅動的迭代優化

質量感知迭代推理(QAIR)能根據解答質量自適應地調整迭代深度:高質量解答可提前收斂,低質量解答則觸發更多探索,從而在效率與準確率之間取得平衡。

該機制為每個方案評估三個維度:邏輯性、答案正確性、解釋完整性。只有未達標的方案才會進入下一輪修正,避免在低質量候選上浪費計算資源。

全面碾壓:不止於HLE

Eigen-1的優勢不限於HLE:

1、HLE Bio/Chem Gold(149題)

Pass@1: 48.30%(領先SciMaster 13.4個百分點)

Pass@5:  61.74% (首破60%)

2、SuperGPQA生物學(Hard版)

Pass@1: 69.57%

Pass@5: 78.26%

3、TRQA文獻理解

Pass@1: 54.65%

Pass@5: 79.07%

深層洞察:成功背後的規律

錯誤模式分析

Figure 7的餅圖揭示了一個關鍵洞察:92.78%的錯誤涉及推理過程問題,88.66%涉及知識應用問題,且兩者存在大量重疊。

這表明科學推理的核心挑戰不在於單純的知識檢索或邏輯推理,而在於如何將知識與推理無縫整合。

相比之下,執行遵循錯誤(13.40%)和理解錯誤(9.28%)佔比較小,說明模型在指令理解和執行層面已經相對成熟。

組件貢獻的精確量化

團隊通過增量構建消融實驗精確量化了每個組件的貢獻。

基線系統在沒有任何外部知識的情況下只能達到25.3%的準確率,消耗483.6K tokens。加入顯式RAG後,準確率提升到41.4%,但代價是工作流步驟從43.4激增到94.8,這正是“工具稅”的直觀體現。

當引入Monitor組件後,雖然準確率略降至34.5%,但token消耗驟降至218.4K,工作流步驟也降至51.3。

隨著Querier和Injector的加入,準確率恢復到40.3%。HSR的引入將準確率提升至43.7%,最後QAIR將完整系統的準確率推至48.3%,同時保持了高效的資源利用(218.9K tokens,53.4步驟)。

消融實驗從另一個角度驗證了各組件的必要性。移除Monitor導致token消耗激增至461.3K,工作流步驟增至95.3,顯示了隱式增強的巨大價值。

移除HSR或QAIR分別導致準確率降至44.8%和43.7%,證明了層級精煉和質量感知迭代的重要作用。

多樣性與共識的微妙平衡

作者通過散點圖和迴歸分析揭示了一個違反直覺但極具啟發性的發現。

在信息檢索任務(339個樣本)中,解決方案之間的一致性與準確率呈現較弱的正相關(斜率0.369),意味著不同的檢索路徑和視角能帶來互補信息,多樣性是有益的。

而在推理任務(392個樣本)中,情況完全相反——一致性與準確率呈現強正相關(斜率0.851),表明當多個推理路徑得出相同結論時,這個結論很可能是正確的。

因此,檢索型任務應鼓勵解法多樣性與並行路線;純推理型任務應傾向早期共識與收斂。

這一發現為未來智能體系統的任務自適應設計提供了重要指導。

工具稅的精確量化

最後,作者通過對比準確率提升與token減少的關係,直觀展示了隱式增強相對於顯式RAG的巨大優勢。

傳統的基線+RAG方案雖然能提升準確率,但以巨大的計算開銷為代價,在圖中表現為向右上方延伸(準確率提升但token增加)。

而Eigen-1則位於左上象限,在大幅提升準確率的同時減少了53.5%的token消耗,工作流迭代次數也從94.8步降至53.4步,減少了43.7%。這種“既要又要”的成果,正是架構創新的價值所在。

意義:科學AI的新範式

Eigen-1首次突破60分的意義遠超一個基準測試:Eigen-1更預示著AI輔助科學研究的新範式

當AI能夠真正理解和推理人類知識前沿的複雜問題時,它將成為科學家的強大助手,加速從基礎研究到應用轉化的全過程。

研究團隊表示,未來將繼續優化架構設計,探索向其他科學領域的擴展,並研究如何將這些技術整合到更廣泛的科學工作流中。隨著更多研究者加入這一開源生態,我們有理由期待科學AI將迎來更快速的發展。

正如團隊所言:“HLE可能是我們需要對模型進行的一次重要的考試,但它遠非AI的最後一個基準。”當開源社區攜手推進,人類與AI協作探索未知的新時代正在加速到來。

論文鏈接:https://arxiv.org/pdf/2509.21193v1 

項目地址:https://github.com/tangxiangru/Eigen-1

本文來自微信公眾號“量子位”,作者:Eigen-1團隊 ,36氪經授權發佈。

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論