OpenAI高管自爆:Scaling不死,GPT-5「雙軸訓練」撕開智能天花板

avatar
36氪
08-20

GPT-5的能力到底有什麼提升與意義?人工智能未來走向何處?這款驚豔亮相的OpenAI新模型,如何揭示智能的多種形態?

OpenAI的首席運營官Brad Lightcap在深度對話中揭開了這些問題的答案。

GPT-5為何如此特殊?

GPT-5實現了一個非常有趣的突破:可自主判斷是否先進行深度推理再回答。

過去用戶必須通過ChatGPT的模型選擇器,手動為不同任務挑選模型。提問後,有時你會選思考模式,有時則不會。OpenAI認為這種體驗說實話容易讓人困惑。

GPT-5徹底簡化了這個流程。它不僅自動替你決策,本質上也更聰明。在寫作、編程、健康等領域,它準確性更高、響應更快,整體體驗全面升級。

大家本以為GPT-5的智能將爆炸式增長,為何OpenAI選擇以可用性而非智能提升作為主要賣點?

Brad Lightcap解釋道,這是因為智能本質上取決於模型投入的思考時間。

分配越多的思考時長,答案質量就越高——這是基本規律。當在特定基準測試中允許模型思考時,AI的表現遠超現有所有模型。

即便不啟用思考時間,它給出的答案依然普遍優於GPT-4.1這類非思考型模型。

因此,這是一次全維度的智能飛躍。但關鍵在於動態分配思考時間的能力——OpenAI認為這才是提升用戶體驗的核心。

這種進步很難用簡單的「指數級」或「漸進式」來界定。

現在人類已經進入需要從多維度評估智能的階段——OpenAI不是在迴避問題,而是為了說明GPT-5為何如此特殊。

在核心能力上,它的提升顯而易見:SWEBench測試得分更高,各類學術評估表現更優。OpenAI還特別強化了GPT-5在健康領域的基準表現。

但如今衡量模型優劣的標準已經變得非常多元。

根據訓練方式和問題處理機制的不同,我們可以從多個角度進行評估:

-速度本身即質量:單位思考時間內能給出更優答案,這本身就是重要的進步指標

-隱形能力升級:結構化思考、問題分解、工具調用等底層能力全面提升

所有這些維度,GPT-5都超越了前代模型。

Scaling Law未死

從GPT-1到GPT-2、GPT-3,再到GPT-4的每次躍進,能力都是全面提升的。

那時候,「更大的模型=全面更好的模型」。而GPT-5似乎並非如此。所以,情況變了嗎?

Brad Lightcap表示:「從技術角度看,情況確實變了。」

從GPT-2到GPT-3,再到GPT-3到GPT-4,主要是利用了當時的Scaling範式。訓練規模越大的模型,結果就得到更好的模型。

這個規律依然成立,但現在有了另一類訓練方式,即後訓練(post-training)。用更有趣的方式使用測試時計算(test-time compute),幾乎像是訓練的第二階段。

這提供了一種推動力,讓OpenAI能將模型推向新的智能水平,同時還能訓練「智多星」。

比如,使用工具對整體智能非常重要。GPT-2和GPT-3在這方面做得不太好。GPT-4在這方面很初級。而現在GPT-5內置了這些能力,結合了多步驟和更長遠的推理過程。

既然訓練方式開始變化,那OpenAI現在是否認為預訓練(pre-training)的回報在遞減?

Brad Lightcap強調他們並不認為預訓練(pre-training)的回報在遞減。

Scaling Law依然成立。從經驗上看,沒有理由認為預訓練的回報會遞減。

而在後訓練方面,大家才剛開始觸及這個新範式的表面。o系列模型,即之前的推理模型,只是OpenAI開始探索後訓練的起點。

Brad Lightcap認為未來一兩年,主要方向是繼續在後訓練維度上Scaling,繼續看到顯著的收益。因為這些收益太明顯了。所以現在從兩個軸向上改進模型:預訓練和後訓練。這會加速創新。

從現在起,大多數改進會來自Scaling,還是算法?

Brad Lightcap表示總是組合拳。

算法、規模、計算力和數據,這些都缺一不可。展望未來,OpenAI它們都超級重要,需要全方位發力。

最難的部分當然是讓它們完美融合。訓練更大的模型,通常意味著你得用更多數據和計算力。這是個微妙的平衡,因為單純放大規模,不一定總能帶來同等的進步。你得把其他元素也帶上。

OpenAI不是隻按一個按鈕,而是真的很用心,把所有這些拉到一起。

GPT-5能力過剩

但不叫「AGI」

在Theo Von的播客節目中,奧特曼說:「GPT-5在幾乎所有方面都比人聰明。」

這聽起來就像他想象中的AGI。他似乎想叫它 AGI,但OpenAI又沒有明確這樣說。所以,為什麼GPT-5不是AGI?

Brad Lightcap解釋道:「AGI確實難以定義」。

有個笑話說,你問五個人AGI是什麼,會得到七種答案。

OpenAI看待AGI的方式是,AGI是個積累過程,是個系統。你得定義這個系統是什麼,你期待它能做什麼。

對Brad來說,至少,AGI是一個能穩定學習新事物(哪怕超出其訓練分佈)的系統,這種能力源自它的推理、思考、解決問題、使用工具以及提出新想法的能力。但他不認為GPT-5就是AGI:GPT-5以及後續模型中,開始看到的是這種「通用化學習系統」的部分雛形和模塊。

而且很難確定AGI和非AGI的分界點。即便真有這個時刻,也不確定大家會在第一時間意識到。因為在和這些模型共事中,「能力儲備過剩」很顯著。奧特曼說的「口袋裡的博士」這種智能水平,其實大家還沒有真正完全利用好。

從某種意義上說,即使現在AI的發展暫停十年,大家依然會有大約十年的新產品可以構建,依然會有新方法來把GPT-5這種水平的模型融入有趣的產品和流程中。

一個有趣的現象是,模型越聰明,反而越要求產品設計方在如何將它融入系統方面投入更多。

Brad Lightcap常打個比方:

實習生非常聰明,但他們最終做的事情有限:記會議筆記、寫摘要、做基礎分析。

但如果你帶來的是一位博士,他們的能力範圍就很廣了,只是第一天上班時可能並不立即高效。你要做的就是給他們足夠的背景、信息和工具,讓他們在後續發揮最大價值。而這個過程比讓實習生上手所需的時間更長。

他認為AI模型也類似,這是一個持續的過程,並不會是線性的。

這引出個超級有趣的問題:從現在起,繼續讓模型更聰明有意義嗎?還是該建哪些輔助能力?那麼對於OpenAI來說,接下來的目標是繼續增強智能,還是專注於那些「非智力」能力?

Brad Lightcap表示全都要。

一部分就是純IQ:對事物運作的知識信息回憶的能力。

但還有推理能力:

怎麼用其他工具解決問題;

反思能力:回顧自己的思路鏈,當你覺得走錯路、沒想對策略時,及時修正。

在這些問題上,GPT-5比之前系統好。

對OpenAI來說,現實世界基準作為智能標誌,越來越重要,比學術基準更關鍵。

而「持續學習」(continual learning)這絕對是OpenAI優先事項之一。

首次用上推理AI

震撼免費用戶

沃頓商學院的Ethan Mollick提前測試了GPT-5,他提出了一個有趣的觀點:

如果你一直在關注這條發展曲線,那麼GPT-5的進步可以說是一個巨大的飛躍,但也是一個出乎意料的飛躍。

他還提到:「這些模型在數學奧林匹克競賽中獲得了金牌。我越來越難以理解這些巨大的進步到底意味著什麼。」

現在的所有模型都在快速改進。那麼問題來了,如果你有一個大學水平生物學的模型,然後它達到了研究生水平的生物學,普通聊天機器人的用戶可能不會感受到這種變化,儘管它變得更聰明瞭。

有人說,對於ChatGPT重度用戶來說,這次提升會被感知到,但可能是比較細微的提升。

但對於普通用戶,尤其是免費用戶來說,這將是一種巨大的飛躍。大多數免費用戶從未體驗過推理模型的威力。他們大多用的是GPT-4.0,而且主要是進行類似搜索的簡短、回合式對話,這種方式並不能體現模型的全部能力。

所以,對很多人來說,這將是他們第一次使用具備推理能力的模型。而且不僅如此,這也是他們第一次體驗到「自我反思」的模型:根據問題的難度,GPT-5模型會自行決定花多少時間思考、給出多高質量的答案。

這其實是一件好事——如果一直緊追最強AI,那麼你會感到目眩神迷,但進步也會顯得更連續。而如果你一直用的是一兩年前的最佳模型,那麼這次的躍遷會讓你非常震撼。

每個人的切入點都不一樣,這也是有趣之處——它對每個人來說都是很個人化的體驗。

GPT-5特別關注了健康領域,因為這是用戶使用AI最常見的起點之一,尤其是有健康問題時。這是OpenAI的重要目標。

兩大落地場景

健康與企業

Brad Lightcap認為AI不會取代醫生:

人們依然需要與全科醫生或專科醫生合作進行治療。

但有一個可以陪伴左右、在整個過程中提供指導的工具,對很多人來說是很有安慰感的,並且在很多情況下確實能發揮作用。

OpenAI推動模型在健康領域的能力提升,一直是他們重點關注的方向。

從GPT-5開始,未來的模型,準確率持續上升,幻覺率持續下降。

具體來說,GPT-5的準確率大約是前代模型的4到5倍(取決於測量方式)

在很多方面,還沒有看到企業界人工智能的「ChatGPT時刻」。

相對於消費者,AI對企業是另一類難度。

企業流程複雜,多用戶依賴很常見,必須處理大量的上下文,必須使用許多工具。這些工具必須以某種方式、在某些限制下依次使用。當它們不起作用時,容錯率沒有那麼高。

只有能力基線的提升,AI在企業領域才能有所作用,包括使用工具、有條理思考、解決問題、遞歸糾正自身錯誤、進行長上下文檢索等能力。

這些能力在邊緣確實很重要。

OpenAI與多家企業合作測試這些模型,特別是GPT-5。從像Uber、Amgen、Harvey、Cursor、Lovable、JetBrains等公司那裡,OpenAI得到了很多反饋。

如Cursor、JetBrains、Windsurf、Cognition等,都反饋說GPT-5現在感覺是最強大的編碼模型,無論是在交互式編碼環境中還是在更具代理性的編碼環境中。

此外,GPT-5在其他領域中的推理和解決問題的能力有了顯著提高。

Harvey就是一個很好的例子,Harvey AI與律師事務所合作,非常依賴其可靠、準確和一致地分析案例的能力,提供法律分析時所需的那種結構化思維水平。

GPT-5已經非常強大,未來肯定會有更優秀的模型,這一點毋庸置疑。

但目前OpenAI只專注於兩件事:如何讓更多人用上GPT-5,以及如何支持合作伙伴基於它開發生態。

我們仍處於科學探索階段——這才是最令人興奮的地方,就像比賽才剛開局,OpenAI自己也還在理解當前的範式。

GPT-5是重要的第一步,只有認清現狀,才能看清未來。

參考資料:

https://www.bigtechnology.com/p/799049c8-5054-45c0-8ee7-9de1f2191759

本文來自微信公眾號“新智元”,作者:新智元,編輯:KingHZ,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論