GPT 4o-mini華人領隊離開OpenAI:真正推動AI進步不是模型架構,而是互聯網

avatar
36氪
08-19

前OpenAI研究員Kevin Lu加盟由前OpenAI CTO Mira Murati創立的Thinking Machines Lab。公司2025年7月獲約20億美元早期融資,估值約120億美元。Kevin Lu曾主導GPT-4o mini,長期研究強化學習、小模型與合成數據。

剛剛,OpenAI又離職一名華人大佬

前OpenAI研究員Kevin Lu宣佈加入AI新創Thinking Machines Lab

Kevin Lu主導了GPT-4o mini的發佈,並參與o*-mini、o3等模型工作。

Thinking Machines Lab由前OpenAI CTO Mira Murati創立的。

2025年7月,公司創歷史完成約20億美元的超大額早期融資(a16z領投),估值約120億美元

隨後團隊核心成員在社交平臺上互動表示歡迎。

Kevin Lu是強化學習與小模型方向的研究者,本科就讀於加州大學伯克利分校,在OpenAI期間專注強化學習、Small Models與合成數據。

加入Thinking Machines之前還在Hudson River Trading、MetaAI從事序列決策與深度學習研究。

真正推動AI進步的是互聯網

Kevin Lu在小模型與合成數據上的實踐經驗,有助於Thinking Machines縮短從論文到用戶價值的距離。

尤其是他7月的一篇博客非常出圈:真正推動AI進步是互聯網。

深入淺出的講明白一個事情:與其反覆摳架構,不如擴大、豐富、貼近現實的數據來源(如互聯網)與數據消耗方式,否則模型始終「見得少、懂得少」。

博客地址:https://kevinlu.ai/the-only-important-technology-is-the-internet

以下為博客的部分截取翻譯:

雖然AI的進步常被歸功於一些里程碑論文——比如transformers、RNNs、diffusion——但這忽略了AI最根本的瓶頸:數據

那麼,「好數據」究竟意味著什麼?

如果我們真想推進AI,與其研究深度學習優化,不如研究「互聯網」。

互聯網才是讓我們的AI模型實現規模化擴展的那項關鍵技術。

· Transformers是一種「分散注意力」

受架構創新帶來的快速進展啟發(5年間從AlexNet到Transformer),許多研究者一直在尋找更好的架構先驗,寄望於設計出「優於Transformer」的新架構。

事實上,Transformer之後確實出現了一些更好的架構;但為什麼自GPT-4以來,我們很難「切身感到」這種改進?

· 範式更迭

算力受限(compute-bound)。

曾經,方法隨算力擴展,更高效的方法就更好。

真正重要的是把數據儘可能高效地塞進模型裡;這些方法不僅效果更好,而且似乎「越大越靈」。

然後,數據受限(data-bound)。

研究模型架構當然不是沒用。社區在Transformer之後開發出了更好的方法,比如SSMs與Mamba等。

但它們並非「免費的勝利」:在給定訓練算力下,訓練一個Transformer往往能得到更優性能。

數據綁定的範式是自由的:反正各種方法最終都差不多!

因此應選擇推理階段更優的方法,可能是某種「次二次注意力變體」(subquadratic attention variant)。

這些方法很可能會再度走到臺前。

· 研究者該做什麼?

設想我們不只關心推理(可以理解為「產品」),而是關心漸近性能(可以理解為朝著AGI邁進):

顯然,只優化架構是錯的。

調整Q-function軌跡裁剪也不對。

手工打造新數據集無法擴展

花哨的「時間高斯探索」(new temporal Gaussian exploration method)也大概率不具擴展性。

社區的許多成員已經達成共識:應研究新的「數據消費」方式

目前兩大主流範式是:(1)下一個token預測(NTP)與(2)強化學習(RL)。

(顯然,我們在「新範式」上並沒取得太多突破)

AI的本質就是「消耗數據」

目前AI領域裡程碑工作本質上是在開闢數據消耗&消耗的新途徑:

AlexNet(2012):用「下一個token預測」的視角來「消化」ImageNet。

GPT-2(2019):用下一個詞預測來學習互聯網文本。

原生多模態(如GPT-4o、Gemini 1.5):用下一個詞預測吸收互聯網的圖像與音頻。

ChatGPT:在聊天場景中用強化學習攝取隨機的人類偏好獎勵

DeepSeek-R1:在狹窄領域用強化學習攝取確定且可驗證的獎勵

「下一個token預測」而言,互聯網是完美的解決方案:它提供了極其豐富的、按序相關的數據,正好適合序列建模去學習。

互聯網充滿了結構化HTML的「序列」,天生適配下一個token預測;按不同順序重構,可以湧現多種有用能力。

這不是巧合:這種「序列數據」對下一個token預測近乎完美;互聯網與下一個token預測相輔相成

「行星級」數據

Alec Radford在2020年的一個先見之明的演講中指出:儘管當時提出了很多新方法,但都不如「擴大與整理數據」重要。

我們從「寄望更好方法帶來神奇泛化(比如損失函數暗含句法樹)」,轉向一個樸素原則:模型沒被告知的事,它當然不知道。

與其通過打造大規模監督數據集去「硬性指定預測目標」,不如設法讓模型從「外部的一切」中學習並進行預測

每次我們做一個數據集,就像是把「世界上其他一切」的重要性設為0、把「數據集內的一切」的重要性設為1。

可憐的模型!它們知道的太少,仍有太多被隱藏。

自GPT-2之後,全球開始關注OpenAI,而時間也證明了其影響力。

如果有Transformer但沒有互聯網?

低數據。在低數據範式裡,Transformer可能一文不值:其「架構先驗」不如CNN或RNN,因此表現應更差。

書籍。較不極端的情況是:若無互聯網,我們可能用書籍/教材進行預訓練。教材常被視為人類智慧的巔峰:作者受過良好教育,字斟句酌。這代表一種信念:「高質量數據勝於大數量數據」。

教材與Phi。Phi系列(「Textbooks Are All You Need」)在小模型上表現出色,但仍要依賴在互聯網訓練的GPT-4做過濾與合成。

總體看,Phi很不錯,但尚未證明能達到以互聯網數據預訓練模型的漸近性能;且教材缺少大量現實世界與多語言知識(不過在算力受限下它們很強)。

「數據類別」的類比

可把「教材」視作可驗證獎勵(表述幾乎總是真),而「書籍」(尤其是創作類)更像是「人類偏好」,能賦予學生模型更強的風格多樣性。

就像我們可能不會讓o3或Sonnet 3.7替我們寫作一樣,只在高質數據上訓練的模型可能缺少某種創造性「火花」。

因此Phi的PMF(產品市場契合)並不理想:需要知識時,人們偏好大模型;要本地「角色寫作」,人們也不太會選Phi。

互聯網之美

書與教材本質上只是互聯網數據的壓縮(背後或許有強大智能在做壓縮)。

更上一層看,互聯網極其多樣化的監督源,也是人類的映射

展示了互聯網用戶在過去三十多年裡由幾百萬躍升到50多億的長期、持續增長

一些研究者可能覺得「為了研究進步要轉向產品」很奇怪(甚至是干擾),但如果我們關心AGI對人類有益(而不是像AlphaZero那樣在真空中聰明),就該考慮AGI的形態(產品)

我認為研究(預訓練)與產品(互聯網)的協同設計非常優雅。

去中心化與多樣性

互聯網是去中心化的,任何人都能民主地添加知識;不存在單一真理源。

它承載了大量視角、文化模因和低資源語言;若用大模型在其上預訓練,便能得到理解廣博知識的智能。

這意味著,互聯網的管理者(產品「管家」)對AGI的設計舉足輕重!

若削弱互聯網多樣性,模型在做RL時的「熵」(信息多樣度)會顯著變差;若刪除數據,AGI中的整個亞文化都可能被抹去。

對齊。有非常有趣的結果表明:為了得到對齊的模型,必須同時在對齊與未對齊數據上預訓練,因為預訓練會學到二者之間線性可分的方向

如果去除未對齊數據,模型就難以理解「什麼是不對齊,以及為何這是不好的數據」。(有點善惡共存,無善無惡的味道了

上圖指標越高(「Toxigen」)表示毒性越強。

含10%有毒數據+人工引導上預訓練的模型,0%有毒數據+引導上預訓練的模型更不毒

特別是,上述「有毒」數據來自4chan,這是一個匿名在線論壇,以其無限制的討論和有害內容而聞名。

儘管這是一個產品與研究之間存在緊密聯繫的特定案例(我們需要這種無限制討論來實現對齊的研究模型),但我認為你可以想到更多類似的案例,其中互聯網的設計決策在訓練後影響了最終結果。

非對齊的另一個例子:Improving Image Generation with Better Captions推動了DALL·E 3的發展。

通過重寫標註以更清晰地區分「好/壞圖像」,如今已廣泛用於生成模型。

這與RLHF的「點贊/點踩」在精神上相似。

「苦澀的教訓」

必須牢記:人們確實想使用互聯網,而這些有用性質都是與「互聯網這一產品」互動的湧現結果

如果我們總是手工整理數據就會出現「被整理的內容」與「用戶覺得有用的能力」之間的二元對立

有用的技能不應由研究者來拍腦袋選,用戶會告訴你答案。

「人們想使用互聯網」的另一半原因是:人均成本足夠低,才能普及並匯聚數據。若互聯網需要昂貴訂閱,就不會有大規模數據貢獻。

人們常在「擴展性」討論裡忽略這一點:互聯網是那個能擴展學習與搜索(數據與計算)的簡單理念

若你找到這種「簡單理念」並把它做大,就會收穫卓越成果。

要點。互聯網之所以對訓練極有用,是因為:

1)多樣,蘊含大量有用知識;

2)形成天然課程

3)有產品市場契合,用戶持續供數;

4)經濟可行,單人成本低、可普及。

互聯網是「下一個token預測」的「對偶」

互聯網對監督式的下一個token預測是如此完美的補充,以致我們甚至可以強說:給定互聯網這個「底座」,研究者幾乎必然會收斂到下一個token預測

因此我會說:互聯網就是「下一個token預測」的對偶。

如上所述,儘管我們做了大量研究,當下仍只有兩大範式

因此,提出新的「產品」點子可能比提出新的「學習範式」更容易。這引出問題:那強化學習的「對偶」是什麼?

現在有一些想法,但各有缺陷。它們都不算「純研究」,都涉及圍繞RL打造產品

我們期望的屬性是:多樣性、天然課程、PMF、經濟可行性

最後一評:犧牲一些多樣性也可以——在自家產品裡用RL優化指標(遊戲、自動售貨機、留存/利潤/參與度等)。

這可能有效,但難點在於:如何把它「升格」為一種多樣化、可擴展的獎勵宇宙,從而引發範式級躍遷

總之,我們還遠未找到一個像「互聯網之於NTP」那樣優雅且高產的「RL對偶」。

最後,Kevin Lu再次強調,在訓練裡,模型只「看到」數據集裡的東西;集外的世界等於被忽略(0 權重)。

希望有朝一日我們將找到方法來解決這個問題。

參考資料:

https://x.com/_kevinlu/status/1942977315031687460 

本文來自微信公眾號“新智元”,作者:新智元,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論