12月25日消息,專注於人工智能基準測試的非營利組織Epoch AI發佈的年終報告顯示,整體來看,AI模型的能力正在快速提升。
頂尖國際模型如GPT、Gemini在專家級數學難題FrontierMath上表現優異,但在真正高難度問題面前仍未滿分,顯示出推理能力仍有提升空間。與此同時,AI推理能力和強化學習的進步讓增長速度幾乎翻倍,成本大幅下降,許多模型已能在消費級硬件上運行。
在此背景下,中國開源大模型也有所進步,但與國際頂尖模型相比仍存在明顯差距。在FrontierMath測試中,絕大多數中國模型幾乎未能得分,最高也只有DeepSeek-V3.2取得約2%的成績。這表明,中國模型雖然在追趕,但在處理真正複雜難題時仍面臨挑戰。
01 中國模型的“七個月追趕”:開源力量正在重塑格局
中國模型的最高分仍落後全球前沿水平約七個月
在Epoch AI的FrontierMath最新評測中,中國開源模型交出了一份令人矚目的答卷。FrontierMath是一個由專家數學家精心設計的高難度數學基準測試,涵蓋數論、實分析、代數幾何、範疇論等現代數學主要分支。完整數據集包含350道問題,其中300道為基礎集(第1-3層),50道為極難問題(第4層)。解決這些問題,研究人員通常需要數小時甚至數天的努力。
FrontierMath題集
FrontierMath題集分為公開與私有兩類:基礎集前3層的10道題目向公眾開放,其餘290道題構成私有集;第4層極難題中公開2道,其餘48道為私有集。
評測結果顯示,在第1-3層題庫上,中國模型的最高分仍落後全球前沿水平約七個月。這一數字看似不小,但放在AI發展歷史上,它意味著中國模型正在以驚人速度縮小與OpenAI、Anthropic等頂級實驗室的差距。僅兩年前,開源模型與閉源前沿模型的差距還按“年”計算,而現在,消費級GPU上運行的最佳開源模型與絕對前沿的性能差距已不足一年。
更令人關注的是第4層題庫——50道“需要數天才能解決”的極難數學問題。DeepSeek V3.2(Thinking)成為唯一在此層取得非零分的中國模型,正確回答了1道題(約2%)。雖然看似微小,但象徵意義重大:它表明中國模型已具備挑戰頂尖數學難題的潛力。即便是OpenAI的o3和o3-mini,在這類題目上的準確率也僅在個位數。
技術上,DeepSeek通過多頭潛在注意力(MLA)、混合專家(MoE)架構創新以及多標記預測,使模型在僅用十分之一算力的情況下,達到了與Meta Llama 3相當的預訓練水平。隨後推出的推理模型R1,在性能上媲美OpenAI的o1,但開發成本僅為後者的一小部分。這印證了Epoch AI的觀點:AI訓練成本下降的主要動力,並非硬件便宜,而是算法優化和數據改進。
Epoch AI的評測使用第三方API完成(DeepSeek用Fireworks,其餘模型用Together),以保障FrontierMath題庫安全。Epoch AI分析指出,部分第三方API可能輕微影響模型得分,新發布模型受影響更大。這意味著,中國模型的實際能力可能比公開評測顯示的更強。
FrontierMath的答題方法同樣值得了解:模型需提交一個返回答案的Python函數 answer,答案通常為整數或sympy對象。模型可以思考、運行Python代碼、並在有把握時提交答案。每個問題都有嚴格標記限制(硬性上限1,000,000個標記),評測系統會記錄提交結果並評分。使用Python工具運行代碼的時間上限為30秒,確保評測可在商用硬件上重複驗證。
數據還顯示一個趨勢:任何前沿AI能力,從出現到廣泛可用的時間窗口不到一年。這既為中國模型提供了追趕前沿的機會,也帶來了挑戰:因為前沿本身仍在高速前進,追趕永遠沒有終點。
02 全球前沿模型的“軍備競賽”:從GPT-5到Gemini 3
GPT-5於2025年發佈時,引發了部分市場的“失望”。相比Claude 3.7、Gemini 2.5等中間版本,性能提升似乎有限。然而,Epoch AI數據顯示,GPT-5相較GPT-4的飛躍,與GPT-4相較GPT-3幾乎相同:
·MMLU:+43%
·MATH:+37%
·TruthfulQA:+40%
·HumanEval:+67%
·GPQA Diamond:+55%
·MATH Level 5:+75%
·Mock AIME 24-25:+84%
“震撼感”減弱的原因,在於發佈節奏加快:從GPT-3到GPT-4用了約兩年,從GPT-4到GPT-5僅一年。市場已經被Claude 3.7、Gemini 2.5、o1等中間模型“餵飽”,對GPT-5的期待自然水漲船高。
Gemini 3 Pro在FrontierMath評測中也遇到了挑戰,主要來自API穩定性問題。在Tier 1-3題庫上,其準確率38%,但因API錯誤導致10道題失分;在Tier 4超難題中,準確率19%,有3道題受API錯誤影響。Epoch AI至少重試10次,確保評測嚴謹。這顯示出API穩定性已成為前沿模型表現的重要約束。
xAI的Grok 4則遭遇更嚴重的網絡和超時問題:在Tier 4的48道問題中,有8道(16%)無法正常評分。Epoch AI採用特定規則處理,同時保持完全獨立編輯,確保評測透明度。
此外,OpenAI的研發開支也揭示了真實成本結構:2024年50億美元算力預算中,90%用於實驗性訓練和基礎研究,而非最終發佈的GPT-4.5或其他模型。這說明,打造頂尖模型的核心成本並非“做出模型”,而是“弄清楚怎麼做”。因此,DeepSeek能夠用更低成本實現相似性能,得益於其站在前沿實驗室肩膀上的優勢。
03 AI模型能力加速:前沿模型進步速度翻倍
AI模型的能力正在以前所未有的速度提升
最新數據顯示,AI模型的能力正在以前所未有的速度提升。根據Epoch AI的能力指數(Epoch Capabilities Index,ECI)分析,自2024年4月起,頂尖模型在各類基準測試中的進步速度幾乎是此前兩年的兩倍。具體來看,斷點前的年度能力增幅約為8分,而斷點後的增幅提升到約15分,顯示出顯著加速。
這一加速與幾個重要變化同步發生:推理模型(如OpenAI的o1、DeepSeek R1等)迅速崛起,同時前沿實驗室加大了強化學習的投入。這表明AI的發展模式正發生轉變:不再僅依賴大規模預訓練,而是通過預訓練、推理計算和強化學習的多重策略來提升模型能力。
全球主要模型ECI排名
Epoch AI的報告追蹤了2021年底至2025年底的149個前沿模型,包括所有核心前沿模型。分析採用分段線性模型擬合頂尖模型能力隨時間變化的趨勢,並確定最佳“斷點”為2024年4月。斷點前後能力增長率分別為8.2分/年和15.3分/年,加速比例約1.86倍。統計分析顯示,這一加速信號穩健且顯著,與單線性趨勢相比更能反映實際發展速度。
這意味著,2024年之後,前沿模型的性能提升不僅在絕對數值上增加,而且迭代速度更快。領先實驗室在算力、算法和訓練數據上的投入,將直接決定其保持領先的能力。同時,這也給開源團隊提出了更高要求:在更短的時間窗口內追趕閉源模型,需要持續優化算法和訓練策略。
簡而言之,AI能力提升的速度正在加快,全球AI競賽的節奏也隨之被壓縮,領先優勢難以長期保持。
04 2025年AI十大趨勢:技術、經濟與社會影響
在剛剛過去的2025年,Epoch AI發佈了36篇數據洞察和37篇通訊,共計70篇關於AI的短調查。哪些內容最受讀者關注?年終盤點顯示,這些洞察和通訊的閱讀量與互動數據,為我們篩選出了十大趨勢的核心方向。
在這些最受歡迎的調查中,前五篇是讀者最關注的數據洞察,它們揭示了AI能力進步、算力分佈、成本變化等最核心的行業動向。緊隨其後的五篇,則反映了政策、社會應用和行業實踐等方面的趨勢。
也就是說,本年度十大趨勢,並非單純由研究者設定,而是結合了讀者的關注度與數據洞察的權重,呈現了一個既專業又貼近市場和公眾視角的AI全景。
趨勢一:推理成本暴跌,但任務差異明顯
從2023年4月至2025年3月,推理成本在相同性能水平下呈指數下降:
最慢任務:下降9倍/年
中速任務:下降40倍/年
最快任務:下降900倍/年
成本下降主要受兩大因素驅動:市場競爭加劇(API提供商更多、定價更透明)和效率提升(推理算法優化、硬件利用率提高)。然而,不同任務享受成本紅利的速度差異巨大:簡單任務(如文本分類)幾乎免費,而複雜任務(如博士級科學推理)下降速度較慢。這說明,AI能力平民化帶來的經濟優勢並非對所有任務均等,企業和開發者仍需針對特定應用優化策略。
趨勢二:消費級硬件與前沿模型差距縮短至7個月
Epoch AI發現,單個消費級GPU(如RTX 4090、RTX 5090)上運行的最佳開源模型,與絕對前沿模型的差距已壓縮至約7個月。
這意味著:數十億用戶可以在個人電腦上運行接近前沿水平的AI;企業若僅依賴固定模型能力,很難長期保持競爭優勢;政策上,“技術封鎖”難以阻止能力擴散。
這一趨勢凸顯了開源AI的顛覆性影響:前沿能力快速普及,市場競爭窗口變短,創新優勢需要依靠持續迭代和整體服務能力,而非單一模型性能。
趨勢三:OpenAI算力主要投入實驗,研發成本遠超訓練
Epoch AI數據顯示,OpenAI 2024年的大部分算力並未直接用於模型推理或最終訓練,而是用於支撐實驗和研發活動。具體開支結構如下(均為雲算力費用):
基礎研究與實驗性算力:約45億美元,包括基礎科研、實驗性/風險規避運行(用於最終訓練準備)以及未發佈模型。
GPT-4.5 最終訓練:約 4億美元(90%置信區間:1.7億–8.9億美元)
其他模型訓練:約 8000萬美元(包括 GPT-4o、GPT-4o mini、Sora Turbo,以及 GPT-4o 更新和 o 系列後訓練;90%置信區間:2400萬–4.35億美元)
研發算力總計:50億美元
推理算力:20億美元(不包括微軟為自家產品運行 OpenAI 模型的成本)
這說明,AI開發極為資本密集,領導者需要大量算力用於探索和實驗,而不僅僅是最終訓練和部署。大部分開支用於“弄清楚如何做”,而非直接產出模型。這也解釋了為什麼部分開源或後起模型能夠用更少成本達到接近性能:他們站在前沿實驗室的肩膀上,跳過了大量試錯環節。
換句話說,OpenAI的算力使用策略顯示了研發本身的巨大價值:實驗是推動AI能力突破的核心,而訓練和部署只是結果的一部分。
趨勢四:英偉達算力存量每10個月翻番
自2020年以來,全球已安裝的英偉達AI算力每年增長約2.3倍,新旗艦芯片在發佈後三年內佔據大部分現有算力。
H100發佈於2022年,到2025年已成為主流,H200、B100等下一代芯片將在2026-2028年接棒。
算力的指數級增長是維持AI能力進步的前提,但也提出供應鏈壓力問題:芯片短缺或物流受阻,將直接影響模型訓練和推理能力。Epoch AI強調,這種“算力軍備競賽”仍將持續,是AI發展速度的核心支撐。
趨勢五:GPT-5在基準測試上延續飛躍,但市場震撼感有限
Epoch AI數據顯示,GPT-4和GPT-5在各大基準測試上的表現,相比前一代均實現了顯著提升。例如,在MMLU、MATH、TruthfulQA、HumanEval、GPQA Diamond、MATH Level 5以及Mock AIME 24-25等關鍵測試中,GPT-4相較GPT-3的成績提升幅度從37%到84%不等,而GPT-5在同樣基準上的提升幅度幾乎與GPT-4持平,繼續鞏固了其在前沿AI模型中的領先地位。
儘管GPT-5在性能上相比GPT-4依舊有大幅進步,但部分市場人士感到“震撼感不足”。Epoch AI分析認為,這主要是由於過去兩年模型發佈節奏加快所致,而非能力增長放緩。從GPT-3到GPT-4用了約兩年,而從GPT-4到GPT-5僅一年,因此公眾對GPT-5的期待被抬高,而實際性能飛躍依然非常顯著。
這一趨勢表明,AI能力增長仍在高速推進,但頻繁的中間版本更新容易導致公眾對“性能進步幅度”的感知與實際情況存在偏差。
趨勢六:ChatGPT單次查詢能耗低於開燈泡五分鐘
Josh估算了GPT-4o一次查詢的平均能耗,結果顯示其消耗低於點亮一隻燈泡五分鐘。這一估算後來得到了Sam Altman的確認,也與Google公佈的Gemini模型每次查詢能耗數據相近。
AI能源消耗一直是公眾關注的焦點。這個數據幫助量化了成本,將AI的能耗放在日常家庭活動的背景中進行比較:單次查詢消耗相對微小。然而,隨著全球使用量的指數級增長,AI整體能耗仍在持續上升,未來可能成為更顯著的問題。
趨勢七:DeepSeek優化Transformer架構,實現低成本高性能
2025年,DeepSeek團隊在其v3論文中提出了三項關鍵技術,使其開源預訓練模型在當時達到了最佳性能,同時所需算力僅為下一優開源模型Llama 3的十分之一。具體技術包括:
多頭潛在注意力(MLA)——降低推理內存佔用,提高計算效率
混合專家(MoE)架構創新——提升模型參數利用率
多標記預測(Multi-token Prediction)——加速訓練過程,提高學習效率
僅三天後,DeepSeek發佈了推理模型R1,其性能與OpenAI的o1相當,但開發成本可能只為後者的一小部分。
這一案例展示了AI訓練算力效率的趨勢:通過算法創新和數據優化,模型開發成本每年可降低約3倍。換句話說,隨著訓練技術和數據改進,前沿模型不必依賴極端算力,也能在性能上快速追趕頂尖實驗室成果。這不僅為開源模型提供了可行路徑,也推動整個行業在效率和成本上實現質的提升。
趨勢八:推理模型擴展空間或僅剩1-2年
Josh分析了強化學習(RL)在推理訓練中的算力增長情況。OpenAI和Anthropic等前沿實驗室在2025年初指出,這類強化學習擴展的速度無法長期維持,可能在1-2年內觸及算力基礎設施的極限。
推理能力已成為AI模型性能提升的核心因素,尤其在數學、編程和複雜推理任務中表現顯著。然而,這種能力的進一步擴展面臨硬件和成本瓶頸,意味著2024-2025年的能力爆發期可能即將放緩。企業若想保持領先,需要尋找新的增長路徑,例如更高效的數據利用、更優的模型架構,或通過遞歸式“AI輔助AI研發”實現性能突破。
推理能力增長受限提醒行業,算力並非無限,性能提升有天花板。未來的競爭將更依賴算法創新、數據優化和研發策略,而非單純增加算力。
趨勢九:“AI曼哈頓計劃”潛力驚人
Epoch AI分析指出,如果美國建立一個類似曼哈頓計劃或阿波羅計劃規模的國家級AI項目,其訓練規模可能達到比GPT-4大約10,000倍。
2024年11月,美國-中國經濟與安全審查委員會建議,國會應“建立並資助類似曼哈頓計劃的AI項目,競相獲取通用人工智能能力”。這一設想表明,國家級集中投入在理論上可以實現前所未有的AI算力規模,但也提出了兩大問題:投入與回報——動輒數千億美元的資金是否能帶來實際的AGI突破尚不確定;技術與管理挑戰,因為如此大規模的訓練不僅需要算力,還涉及數據、算法優化、硬件保障以及跨機構協調。
這一趨勢揭示了AI能力擴展的極端可能性,同時提醒政策制定者和公眾:國家級項目雖有潛力,但其可行性與風險必須審慎評估。
趨勢十:AI價值主要來自廣泛自動化,而非科研加速
許多關於AI爆炸性增長的敘事,例如山姆·奧特曼(Sam Altman)、德米斯·哈薩比斯(Demis Hassabis)和達里奧·阿莫迪(Dario Amodei)提出的觀點,都認為研發自動化是推動AI快速發展的關鍵槓桿。這意味著,AI可能會迅速、明顯地在特定領域產生影響,例如自動化科研中的最後環節,從而在AI公司內部帶來快速突破。
然而,更可能的情況是,AI對社會的影響呈現分散且漸進的模式:隨著不同組織採用AI提高效率,其效應將在數年甚至數十年間逐步顯現。這提示政策制定者和企業決策者,應關注AI在各行業的廣泛應用與效率提升,而不僅僅寄希望於短期科研奇蹟。
總的來說,AI能力仍在加速,算力、算法、數據和強化學習持續推動模型進步;成本持續下降,為開源和中小團隊提供了追趕機會;但能源消耗、算力瓶頸、評測差異和能力天花板仍是行業必須面對的現實。
未來的AI發展呈現雙重特徵:一方面,能力與效率持續提升,前沿實驗室不斷刷新極限;另一方面,迭代加速、市場期望、政策和監管的不確定性,使得整個行業面臨高度動態的競爭環境。
正如Epoch AI所示,AI行業在狂熱與理性之間不斷重寫自己的故事:從“更大模型”到“更優算法”,從“閉源壟斷”到“開源狂飆”,從“算力軍備競賽”到“效率革命”。唯有通過數據與分析,公眾才能在信息洪流中保持清醒,理解AI發展的真實節奏與潛在影響。
本文來自“騰訊科技,編譯:無忌,編輯:博陽,36氪經授權發佈。



