GPT-5被吐槽沒進步?Epoch年終報告打臉:AI在飛速狂飆,ASI更近了

【導讀】Epoch AI年終大盤點來了!出乎意料的是,AI沒有停滯,反而變快了。

最近,Epoch AI又發了不少東西。 

他們在FrontierMath上測試了幾個開源權重的中文模型。

結果是,它們在1-3級的最高得分,要落後於全球頂尖AI模型大約七個月。

而在較難的第四級,幾乎所有開源中文大模型都掛了零蛋。

唯一得分的選手,只有DeepSeek-V3.2 (Thinking)。它回答對了一道題,取得了1/48 ≈ 2%的分數。

當然,雖然這些中文開源大模型掛蛋了,外國模型們表現也很差。

GPT、Gemini這些頂尖模型,在傳統的數學測試(比如 GSM-8k、MATH)上簡直一路飆分。然而在FrontierMath上,它們的正確率也並不高。

不過從表中可以看出,它們的表現至少要比中文開源模型好一些。原因是為什麼呢?暫時沒找到。

而所有AI模型都考不好,是因為FrontierMath不是普通的benchmark,而是由60+名數學界頂尖專家聯手出題,更有菲爾茲獎得主背書 。

它是一套真正的數學大考卷,不是那種簡單的公式代入、算算微積分的小測驗,而是專家級的原創難題,覆蓋數論、實分析、代數幾何、範疇論等,甚至是科研級別、要花數小時甚至數天才能解開的難題。

這也證明了,在真正難的數學問題 上,AI 現在還不是「做題機器」,更像是偶爾翻到答案的小學生。

AI進化,又加速了

此外,他們還出了一份最新數據洞察,結論令人驚喜——

AI的能力增長,比以前更快了!

他們用一個叫Epoch Capabilities Index(ECI) 的綜合指標,追蹤了前沿 AI 模型能力的發展趨勢。

結果顯示:自2024年4月開始,AI 能力增長速度明顯加快——比之前的增長速度快了近一倍!

也就是說,在過去的幾年裡,AI的能力不是一條穩定的上升線——而是在某個時間點突然開始更快地往上衝刺

背後原因就是這兩個:推理模型更強了,強化學習更受重視了。

很多人會覺得,如今的AI進展變慢了,因為GPT-4發佈後,就再沒看到巨大的飛躍。

但數據顯示,其實AI的進步從來沒停過,只是方向和節奏變了。它一直在某些核心技能上加速,比如推理能力,而不是靠「更大模型 + 更多參數」。

年度TOP十大洞察

並且,就在剛剛,Epoch AI出了一篇硬核年終回顧。

在整個2025年,他們發佈了36篇數據洞察和37篇通訊。

在這70短篇關於AI的短調查中,哪些是最受歡迎的?

Epoch AI給我們來了個年終盤點。

以下這10個調查,是最受讀者歡迎的。

前5個,是最受歡迎的數據洞察。

1. AI推理成本瘋狂降價

嚴謹一點說,就是LLM推理價格在不同任務中迅速但不均衡地下降。

在2023年4月至2025年3月期間,Epoch AI觀察到在同等性能水平下,每枚token的價格下降了10倍以上。

也就是說,AI每一次推理(輸出回答)的價格都下降了10倍以上。

越來越便宜,就意味著AI的普及會更加無門檻:從此,它不再是「大廠拿得起」的技術,而是人人都能用得起的工具!

2. AI 「大腦」正跑到你的電腦裡

短短一年內,前沿AI性能就已在消費級硬件上實現。

目前能在消費級GPU上運行的頂級開源模型,在GPQA、MMLU、AA Intelligence和 LMArena等多項性能指標上,並且與頂尖AI的差距不到一年,甚至更短。

既然最強開源模型能在普通的消費級顯卡上運行,那麼在不久的將來,你的筆記本可能就能跑AI大模型了!

而且任何最前沿的AI能力,都可能在不到一年內被公眾廣泛獲取。

3. OpenAI 2024的大多數算力,其實都用在了試驗上

媒體報道顯示,2024年OpenAI的大部分計算資源並未用於推理或訓練,而是用於做實驗,以支持進一步開發。

是的,不是你想的那樣:不是訓練就是24/7為用戶提供服務,它更多是在試錯、探索、實驗。

這說明,目前的AI研發仍然非常依賴大量實驗,而不只是跑幾個benchmark就完事。

同時,當前AI的成本也大多來自於實驗,而非訓練和部署。

4. 英偉達芯片算力,每10個月翻一倍!

自2020年以來,英偉達芯片的已部署AI計算量每年增長超過一倍。

每發佈一款旗艦芯片,它在三年內就會佔據現有計算量的絕大部分。

所以可以說,GPU仍然是AI運算的核心燃料,而且增長速度快得飛起。

而為了維持當前AI發展的腳步,計算資源還需要再成倍增加,老黃和其他芯片商還有的賺!

5. GPT-4和GPT-5,都是大飛躍

儘管有人吐槽OpenAI更新太快看不出進步,但不要信他們的!

無論是GPT-4還是GPT-5,都在基準測試中都實現了重大飛躍,大大超越了它們前代產品的性能。

所以,今年的AI不是微創新的堆疊,而是真正的能力躍遷。

那為什麼GPT-5發佈後,許多人感覺很失望?

這是因為,過去兩年新模型發佈的頻率更高了,而非能力放緩了。

Gradient最熱TOP 5:洞見背後的思考

接下來5個,是最受歡迎的Gradient專欄文章。

Gradient是Epoch AI的專欄,專門發表簡短的快訊。

6. ChatGPT耗電驚人?並不是

GPT-4o的每次推理,平均耗能究竟是多少?

答案是,比點亮一個燈泡五分鐘的耗電量還要少。

這個結論,也得到了奧特曼的證實,和谷歌報告的每條Gemini prompt的能量成本相似。

也就是說,外界對於AI消耗能源的擔憂,其實比實際情況要誇張了。

當然,AI的能源消耗一直在指數級增長,未來可能會成為大問題。

7. DeepSeek如何改進了Transformer架構?

一文講清了DeepSeek v3用哪三項核心技巧,在算力更低的情況下拿下了當時最強開源模型的位置。

三個技術是,多頭潛在注意力(MLA)、混合專家(MoE)架構的改進,以及多token預測機制。

就在這篇文章發佈後三天,DeepSeek發佈了R1,引起了全球AI圈的大地震。它的性能跟OpenAI o1相當,但開發成本卻是幾分之一。

整個AI圈都被上了一課:精妙的架構創新 = 更低的研發成本 + 更快的落地速度。

8. 推理模型能走多遠?侷限在哪?

作者分析了推理訓練的增長模式和上限。結論是:推理確實重要,但增長不會無限爆炸。

OpenAI、Anthropic在2025年初就曾表示,它們當前的RL擴展速度最多隻能維持1–2年,很快就會觸及自身算力基礎設施的上限。

推理能力已經成為模型訓練中一個極其重要的擴展維度,並在數學、軟件工程上帶來了非常亮眼的效果。

然而,這一方向的增長存在明顯邊界,這也意味著,2024–2025年模型能力的爆發式提升,可能很快就會放緩

對研發規劃來說,這是重要的現實提醒。

9. 「AI曼哈頓計劃」有多大?

Epoch AI用曼哈頓計劃、阿波羅計劃做對比,估算出一個美國國家級AI項目可能達到的規模。

他們的結論是:這個項目足以支撐一次規模達到GPT-4的1萬倍的訓練任務

也就是說,當AI被視為國家戰略級科技項目時,它的級別真能放大很多倍!

10. AI的最大價值,並不來自搞科研?

最後這一篇,十分有趣。

我們常常聽到一種敘事:AI一旦能自動做科研,技術就會指數級爆炸,人類生產力就會迎來史詩級躍遷。

但Epoch AI給出了一個更冷靜的判斷——

AI創造的大部分價值,可能並不是來自加速研發(R&D),而是來自對整個經濟體系中大量工作的廣泛自動化。

這是因為,從歷史數據看,在1988–2020年這三十多年裡,研發活動對整體生產率的貢獻其實相當有限。

就算AI把「科研效率」拉滿,真正撬動經濟的,未必是實驗室裡的突破,而是日常工作方式的改變。

這裡,就存在一個關鍵分歧!

要知道,像奧特曼、Demis Hassabis、Dario Amodei這些領軍人物,論調都是「AI自動化研發,是通向爆發式增長的關鍵」。

如果這個判斷成立,那麼AI的影響就會很迅猛,很劇烈。它會突然跨過「科研自動化的最後一道門檻」,在少數AI公司內部實現巨大飛躍。

但Epoch AI提出的,卻是另一種可能性,也是更「社會學」的版本。

AI更可能通過一個緩慢而分散的過程,來改變世界。

不是一夜之間,而是幾年甚至幾十年,AI會逐步被不同行業、不同組織吸收,替代重複勞動。

如果真是這樣,AI的革命不會是一聲巨響,而是一場長時間的潮水。

參考資料: 

https://x.com/EpochAIResearch/status/2003510001277747518 

https://x.com/EpochAIResearch/status/2003559099867496872 

https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up 

https://x.com/EpochAIResearch/status/2003178174310678644 

本文來自微信公眾號“新智元”,編輯:Aeneas ,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論