奧特曼：ChatGPT只是意外，全能AI智能體才是真愛，Karpathy：7年前就想到了

08-04

歷史往往都是由無數「意外和巧合」所塑造的。

2022年，當研究員Hunter Lightman加入OpenAI時，他的同事們正忙於引爆全球的ChatGPT——這無疑是史上用戶增長最快的現象級產品。

然而，Lightman卻悄悄投身於一個看似不起眼的團隊：MathGen。

他們的任務只有一個：訓練AI模型去攻克高中級別的數學競賽難題。

如今，這個曾經默默無聞的MathGen團隊，竟被視為OpenAI現在能夠問鼎行業的真正原因！

2023年5月31日OpenAI發佈研究博客《Improving Mathematical Reasoning with Process Supervision》，正式提出過程監督（process supervision）訓練的效果。

並在作者署名中出現Hunter Lightman等與MathGen team有關的研究人員。該博客是首次與MathGen團隊相關的官方發佈之一。

同日，奧特曼於X發佈祝賀消息——這是首次由OpenAI親口確認MathGen Team的官方存在。

他們鍛造的「AI推理能力」，正是那項終極技術——AI智能體（AI Agent）的心臟！

這種智能體，將像人類一樣，在電腦上獨立完成你交辦的一切任務！

「那時候，AI的數學推理能力簡直一塌糊塗！」Lightman回憶道，「我們的使命，就是讓它學會真正的思考。」

從「笨學生」到「奧數金牌」的進化！

平心而論，今天的OpenAI模型遠未完美——它們依然會「一本正經地胡說八道」，那些所謂的AI智能體在複雜任務面前也常常束手無策。

但是，一場鉅變正在發生！

OpenAI最頂尖的模型，其數學推理能力已實現驚天逆襲！

就在最近，OpenAI的一個模型在全球最頂尖的國際數學奧林匹克（IMO）競賽中，奪得金牌！

OpenAI堅信，這種強大的推理能力，將可以複製到任何領域！

這正是他們構建通用AI智能體的基石，是他們從創立之初就魂牽夢繞的終極夢想！

如果說，ChatGPT的成功是一場「無心插柳的驚世之作」，一個本想低調測試卻意外引爆全球的奇蹟。

那麼，AI智能體，則是OpenAI精心佈局數年、深思熟慮的戰略結晶！

「未來，你只需要向電腦下達指令，它就會為你搞定一切！」

OpenAI的CEO奧特曼在2023年的開發者大會上宣告，「這種能力，就是AI智能體。它帶來的顛覆，將是空前絕後的！」

奧特曼的預言能否成真？世界還在觀望。但OpenAI已然出手！

2024年秋，其首個AI推理模型o1橫空出世，一鳴驚人！

不到一年，締造這一神話的21名核心研究員，瞬間成為硅谷瘋搶的頂尖人物！

扎克伯格不惜血本，開出上億美元的天價薪酬，從OpenAI挖走了5名o1團隊的核心成員，組建Meta的「超級智能」軍團。

其中一位，清華校友趙晟佳，更是被直接任命為Meta超級智能實驗室的首席科學家！

一場圍繞「AI大腦」的人才戰爭，已然白熱化！

強化學習：引爆智能革命的古老技藝

OpenAI這場推理革命的背後，是一種被稱為強化學習（RL）的古老技術在煥發新生。

它就像一個嚴厲的教練，在模擬環境中不斷對AI的選擇進行獎懲，從而教會AI何為「正確」。

這項技術並不新鮮。

早在2016年，谷歌DeepMind的AlphaGo就曾用它擊敗世界圍棋冠軍，名震天下。

彼時，OpenAI的元老級員工Andrej Karpathy已開始構想，如何用強化學習（RL）打造一個能熟練操作電腦的AI智能體。

然而，從理想到現實，OpenAI足足走了數年。

2018年，OpenAI推出了開創性的大語言模型GPT系列。

論文地址：https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

它靠著海量數據和GPU集群，成了文本處理的天才，並最終孕育了ChatGPT。

但它的軟肋也同樣致命——連基礎數學都搞不定。

直到2023年，石破天驚的突破降臨！

一個代號「Q*」（後被稱為「Strawberry」）的項目，將大語言模型、強化學習（RL）和一種名為「測試時計算」的技術三位一體，融會貫通！

它賦予了模型額外的思考時間，讓AI在給出答案前，能反覆規劃、推演和驗證。

「思維鏈」（CoT）技術由此誕生！AI在處理聞所未聞的數學難題時，表現脫胎換骨！

「我親眼目睹了模型開始真正地推理，」研究員El Kishky激動地說，「它會發現自己的錯誤，然後回溯修正，它甚至會表現出沮喪。那感覺，就像在閱讀一個人的思想！」

這些技術單拎出來，並非首創。

但OpenAI的鬼斧神工之處，在於將它們以前所未有的方式組合，直接催生了後來的王牌——o1。

那一刻，OpenAI恍然大悟：這種規劃與事實核查能力，不正是驅動AI智能體的完美引擎嗎？

「我們攻克了一個我苦思冥想數年的難題！」Lightman說，「那是我科研生涯中，最心潮澎湃的瞬間！」

引爆推理：一場自下而上的豪賭

擁有了AI推理模型，OpenAI的雄心被徹底點燃。

他們發現了兩條全新的進化路徑：

1. 在模型訓練後期，投入更多的算力！

2. 在回答問題時，給予模型更多的思考時間和算力！

「OpenAI這家公司，思考的從來不只是當下，而是未來如何將優勢無限擴大！」Lightman說。

2023年「Strawberry」項目突破後，OpenAI火速組建了一支由研究員Daniel Selsam領銜的「AI智能體」特攻隊。

他們的目標只有一個：將這項新能力推向極致！

起初，公司內部甚至沒有嚴格區分「推理模型」和「AI智能體」。

共同的目標只有一個：打造能完成複雜任務的超級AI！

最終，這支特攻隊的工作匯入了更宏大的o1模型項目，由聯合創始人Ilya Sutskever等一眾頂級大佬親自掛帥。

為了打造o1，OpenAI必須押上最寶貴的資源——頂尖人才和GPU。

在OpenAI，資源從不靠論資排輩，而靠實力說話。

研究員必須用驚人的突破來換取公司的全力支持。

「在OpenAI，所有研究創新都源於一線，是自下而上的。」Lightman解釋道。

「當我們把o1的驚人證據擺在桌上時，整個公司立刻達成共識：就是它了，全力衝鋒！」

許多前員工認為，正是OpenAI對通用人工智能（AGI）近乎偏執的追求，才催生了這場推理革命。

他們心無旁騖，不為短期產品所動，將所有寶押在了打造最強AI大腦上。這種不計成本的豪賭，在其他AI巨頭那裡幾乎不可能。

這個決策，如今回看，極具遠見！

到2024年底，許多AI巨頭髮現，傳統的「堆數據、堆算力」模式，回報越來越低。

而AI領域最激動人心的脈搏，正源自「AI推理」的進步！

AI究竟會不會「思考」？一場哲學的終結

AI真的在「推理」嗎？它真的擁有了「思想」嗎？

自o1問世以來，ChatGPT的界面裡充滿了「正在思考」、「正在推理」等擬人化詞彙，彷彿在宣告一個新紀元的到來。

當被問及這個問題時，研究員Kishky基巧妙地回答：「我們是在教模型如何最高效地利用算力，去找到答案。如果從這個計算機科學的角度定義，那沒錯，它就是在推理。」

Lightman的看法則更加務實和「結果導向」：

「別管它內部是怎麼運作的！如果一個模型能解決極其困難的問題，那它就已經掌握了達成目標所必需的、近似於推理的能力。」

他總結道，「我們可以稱之為推理，因為它看起來就像那麼回事。但這都只是手段，我們真正的目的，是為全人類打造強大到不可思議的AI工具！」

OpenAI的科學家們坦言，人們大可不必認同他們對「推理」的定義。

事實上，批評者早已湧現。但他們認為，爭論名詞遠不如模型本身的能力重要。

AI研究員Nathan Lambert打了個絕妙的比方：AI推理就像飛機。

飛機的靈感來自飛鳥，但其飛行原理與鳥類截然不同。

這絲毫不影響飛機的偉大，它依然能帶我們飛向天空。

AI的「思考」，或許也是如此——靈感源於人腦，機制卻全然不同，但這並不妨礙它實現同樣、甚至超越人類的結果。

終極戰場：讓AI智能體搞定主觀任務

今天市場上的AI智能體，在編碼等規則明確的領域已大顯身手。

OpenAI的Codex能幫程序員處理瑣碎代碼，而Anthropic的模型更是在Cursor等AI編程工具中備受追捧，成為首批讓用戶心甘情願付費的AI智能體。

然而，真正的挑戰在於主觀世界！

當你想讓AI幫你網購、或找個長期停車位時，通用的AI智能體（如ChatGPT Agent）往往會讓你失望——它們反應遲鈍，還盡犯些低級錯誤。

這正是AI智能體走向普及的最後一道天塹：如何教會AI處理那些沒有標準答案、充滿主觀色彩的任務？

「這本質上是個數據問題，」Lightman一針見血，「我們當前最激動人心的研究，就是如何讓模型在不可驗證的任務上進行有效訓練。我們已經找到了一些線索！」

OpenAI的另一位核心研究員Noam Brown透露，他們已掌握全新的通用強化學習技術，能教會AI那些無法用簡單對錯來衡量的技能。

那塊IMO奧數金牌，正是用這種方法拿下的！

奪金的AI模型，是一種更先進的系統：它能同時派出多個AI智能體，分頭探索不同的解題思路，最後優中選優。

如今，谷歌和xAI的最新模型也紛紛採用了這種「群體智能」策略。

「AI的數學能力會越來越強，其他推理領域也一樣。」Brown對此信心爆棚，「進步的速度快得令人難以置信，我看不出任何放緩的跡象！」

GPT-5的野望：通往萬能AI的終極圖景

這些突飛猛進的技術，很可能將在OpenAI即將發佈的GPT-5模型中全面展現。

OpenAI的目標只有一個：用GPT-5的絕對優勢，捍衛自己在AI智能體領域的王權！

但他們的野心不止於此。

Kishky基描繪了一幅終極圖景：未來的AI智能體將能憑直覺理解你的意圖，無需你繁瑣地設置。

它會自主判斷何時調用何種工具、需要投入多少「思考」，就像一個心有靈犀的超級助理。

這，才是ChatGPT的最終形態：一個能為你代勞互聯網上一切事務，並且懂你心意的全能AI智能體！

這與今天的ChatGPT相比，已是天壤之別。但毫無疑問，OpenAI的研究正全速駛向這個未來。

然而，賽道已擁擠不堪！

幾年前的絕對王者，如今已強敵環伺。DeepSeek、谷歌、Anthropic、xAI、Meta……個個虎視眈眈。

問題不再是OpenAI能否實現其智能體的未來，而是——

它能否在群雄逐鹿的血戰中，第一個衝過終點。

參考資料：

https://techcrunch.com/2025/08/03/inside-openais-quest-to-make-ai-do-anything-for-you/

本文來自微信公眾號“新智元”，作者：新智元，編輯：定慧、好睏，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論