歷史往往都是由無數「意外和巧合」所塑造的。
2022年,當研究員Hunter Lightman加入OpenAI時,他的同事們正忙於引爆全球的ChatGPT——這無疑是史上用戶增長最快的現象級產品。
然而,Lightman卻悄悄投身於一個看似不起眼的團隊:MathGen。
他們的任務只有一個:訓練AI模型去攻克高中級別的數學競賽難題。
如今,這個曾經默默無聞的MathGen團隊,竟被視為OpenAI現在能夠問鼎行業的真正原因!
2023年5月31日OpenAI發佈研究博客《Improving Mathematical Reasoning with Process Supervision》,正式提出過程監督(process supervision)訓練的效果。
並在作者署名中出現Hunter Lightman等與MathGen team有關的研究人員。該博客是首次與MathGen團隊相關的官方發佈之一。
同日,奧特曼於X發佈祝賀消息——這是首次由OpenAI親口確認MathGen Team的官方存在。
他們鍛造的「AI推理能力」,正是那項終極技術——AI智能體(AI Agent)的心臟!
這種智能體,將像人類一樣,在電腦上獨立完成你交辦的一切任務!
「那時候,AI的數學推理能力簡直一塌糊塗!」Lightman回憶道,「我們的使命,就是讓它學會真正的思考。」
從「笨學生」到「奧數金牌」的進化!
平心而論,今天的OpenAI模型遠未完美——它們依然會「一本正經地胡說八道」,那些所謂的AI智能體在複雜任務面前也常常束手無策。
但是,一場鉅變正在發生!
OpenAI最頂尖的模型,其數學推理能力已實現驚天逆襲!
就在最近,OpenAI的一個模型在全球最頂尖的國際數學奧林匹克(IMO)競賽中,奪得金牌!
OpenAI堅信,這種強大的推理能力,將可以複製到任何領域!
這正是他們構建通用AI智能體的基石,是他們從創立之初就魂牽夢繞的終極夢想!
如果說,ChatGPT的成功是一場「無心插柳的驚世之作」,一個本想低調測試卻意外引爆全球的奇蹟。
那麼,AI智能體,則是OpenAI精心佈局數年、深思熟慮的戰略結晶!
「未來,你只需要向電腦下達指令,它就會為你搞定一切!」
OpenAI的CEO奧特曼在2023年的開發者大會上宣告,「這種能力,就是AI智能體。它帶來的顛覆,將是空前絕後的!」
奧特曼的預言能否成真?世界還在觀望。但OpenAI已然出手!
2024年秋,其首個AI推理模型o1橫空出世,一鳴驚人!
不到一年,締造這一神話的21名核心研究員,瞬間成為硅谷瘋搶的頂尖人物!
扎克伯格不惜血本,開出上億美元的天價薪酬,從OpenAI挖走了5名o1團隊的核心成員,組建Meta的「超級智能」軍團。
其中一位,清華校友趙晟佳,更是被直接任命為Meta超級智能實驗室的首席科學家!
一場圍繞「AI大腦」的人才戰爭,已然白熱化!
強化學習:引爆智能革命的古老技藝
OpenAI這場推理革命的背後,是一種被稱為強化學習(RL)的古老技術在煥發新生。
它就像一個嚴厲的教練,在模擬環境中不斷對AI的選擇進行獎懲,從而教會AI何為「正確」。
這項技術並不新鮮。
早在2016年,谷歌DeepMind的AlphaGo就曾用它擊敗世界圍棋冠軍,名震天下。
彼時,OpenAI的元老級員工Andrej Karpathy已開始構想,如何用強化學習(RL)打造一個能熟練操作電腦的AI智能體。
然而,從理想到現實,OpenAI足足走了數年。
2018年,OpenAI推出了開創性的大語言模型GPT系列。
論文地址:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
它靠著海量數據和GPU集群,成了文本處理的天才,並最終孕育了ChatGPT。
但它的軟肋也同樣致命——連基礎數學都搞不定。
直到2023年,石破天驚的突破降臨!
一個代號「Q*」(後被稱為「Strawberry」)的項目,將大語言模型、強化學習(RL)和一種名為「測試時計算」的技術三位一體,融會貫通!
它賦予了模型額外的思考時間,讓AI在給出答案前,能反覆規劃、推演和驗證。
「思維鏈」(CoT)技術由此誕生!AI在處理聞所未聞的數學難題時,表現脫胎換骨!
「我親眼目睹了模型開始真正地推理,」研究員El Kishky激動地說,「它會發現自己的錯誤,然後回溯修正,它甚至會表現出沮喪。那感覺,就像在閱讀一個人的思想!」
這些技術單拎出來,並非首創。
但OpenAI的鬼斧神工之處,在於將它們以前所未有的方式組合,直接催生了後來的王牌——o1。
那一刻,OpenAI恍然大悟:這種規劃與事實核查能力,不正是驅動AI智能體的完美引擎嗎?
「我們攻克了一個我苦思冥想數年的難題!」Lightman說,「那是我科研生涯中,最心潮澎湃的瞬間!」
引爆推理:一場自下而上的豪賭
擁有了AI推理模型,OpenAI的雄心被徹底點燃。
他們發現了兩條全新的進化路徑:
1. 在模型訓練後期,投入更多的算力!
2. 在回答問題時,給予模型更多的思考時間和算力!
「OpenAI這家公司,思考的從來不只是當下,而是未來如何將優勢無限擴大!」Lightman說。
2023年「Strawberry」項目突破後,OpenAI火速組建了一支由研究員Daniel Selsam領銜的「AI智能體」特攻隊。
他們的目標只有一個:將這項新能力推向極致!
起初,公司內部甚至沒有嚴格區分「推理模型」和「AI智能體」。
共同的目標只有一個:打造能完成複雜任務的超級AI!
最終,這支特攻隊的工作匯入了更宏大的o1模型項目,由聯合創始人Ilya Sutskever等一眾頂級大佬親自掛帥。
為了打造o1,OpenAI必須押上最寶貴的資源——頂尖人才和GPU。
在OpenAI,資源從不靠論資排輩,而靠實力說話。
研究員必須用驚人的突破來換取公司的全力支持。
「在OpenAI,所有研究創新都源於一線,是自下而上的。」Lightman解釋道。
「當我們把o1的驚人證據擺在桌上時,整個公司立刻達成共識:就是它了,全力衝鋒!」
許多前員工認為,正是OpenAI對通用人工智能(AGI)近乎偏執的追求,才催生了這場推理革命。
他們心無旁騖,不為短期產品所動,將所有寶押在了打造最強AI大腦上。這種不計成本的豪賭,在其他AI巨頭那裡幾乎不可能。
這個決策,如今回看,極具遠見!
到2024年底,許多AI巨頭髮現,傳統的「堆數據、堆算力」模式,回報越來越低。
而AI領域最激動人心的脈搏,正源自「AI推理」的進步!
AI究竟會不會「思考」?一場哲學的終結
AI真的在「推理」嗎?它真的擁有了「思想」嗎?
自o1問世以來,ChatGPT的界面裡充滿了「正在思考」、「正在推理」等擬人化詞彙,彷彿在宣告一個新紀元的到來。
當被問及這個問題時,研究員Kishky基巧妙地回答:「我們是在教模型如何最高效地利用算力,去找到答案。如果從這個計算機科學的角度定義,那沒錯,它就是在推理。」
Lightman的看法則更加務實和「結果導向」:
「別管它內部是怎麼運作的!如果一個模型能解決極其困難的問題,那它就已經掌握了達成目標所必需的、近似於推理的能力。」
他總結道,「我們可以稱之為推理,因為它看起來就像那麼回事。但這都只是手段,我們真正的目的,是為全人類打造強大到不可思議的AI工具!」
OpenAI的科學家們坦言,人們大可不必認同他們對「推理」的定義。
事實上,批評者早已湧現。但他們認為,爭論名詞遠不如模型本身的能力重要。
AI研究員Nathan Lambert打了個絕妙的比方:AI推理就像飛機。
飛機的靈感來自飛鳥,但其飛行原理與鳥類截然不同。
這絲毫不影響飛機的偉大,它依然能帶我們飛向天空。
AI的「思考」,或許也是如此——靈感源於人腦,機制卻全然不同,但這並不妨礙它實現同樣、甚至超越人類的結果。
終極戰場:讓AI智能體搞定主觀任務
今天市場上的AI智能體,在編碼等規則明確的領域已大顯身手。
OpenAI的Codex能幫程序員處理瑣碎代碼,而Anthropic的模型更是在Cursor等AI編程工具中備受追捧,成為首批讓用戶心甘情願付費的AI智能體。
然而,真正的挑戰在於主觀世界!
當你想讓AI幫你網購、或找個長期停車位時,通用的AI智能體(如ChatGPT Agent)往往會讓你失望——它們反應遲鈍,還盡犯些低級錯誤。
這正是AI智能體走向普及的最後一道天塹:如何教會AI處理那些沒有標準答案、充滿主觀色彩的任務?
「這本質上是個數據問題,」Lightman一針見血,「我們當前最激動人心的研究,就是如何讓模型在不可驗證的任務上進行有效訓練。我們已經找到了一些線索!」
OpenAI的另一位核心研究員Noam Brown透露,他們已掌握全新的通用強化學習技術,能教會AI那些無法用簡單對錯來衡量的技能。
那塊IMO奧數金牌,正是用這種方法拿下的!
奪金的AI模型,是一種更先進的系統:它能同時派出多個AI智能體,分頭探索不同的解題思路,最後優中選優。
如今,谷歌和xAI的最新模型也紛紛採用了這種「群體智能」策略。
「AI的數學能力會越來越強,其他推理領域也一樣。」Brown對此信心爆棚,「進步的速度快得令人難以置信,我看不出任何放緩的跡象!」
GPT-5的野望:通往萬能AI的終極圖景
這些突飛猛進的技術,很可能將在OpenAI即將發佈的GPT-5模型中全面展現。
OpenAI的目標只有一個:用GPT-5的絕對優勢,捍衛自己在AI智能體領域的王權!
但他們的野心不止於此。
Kishky基描繪了一幅終極圖景:未來的AI智能體將能憑直覺理解你的意圖,無需你繁瑣地設置。
它會自主判斷何時調用何種工具、需要投入多少「思考」,就像一個心有靈犀的超級助理。
這,才是ChatGPT的最終形態:一個能為你代勞互聯網上一切事務,並且懂你心意的全能AI智能體!
這與今天的ChatGPT相比,已是天壤之別。但毫無疑問,OpenAI的研究正全速駛向這個未來。
然而,賽道已擁擠不堪!
幾年前的絕對王者,如今已強敵環伺。DeepSeek、谷歌、Anthropic、xAI、Meta……個個虎視眈眈。
問題不再是OpenAI能否實現其智能體的未來,而是——
它能否在群雄逐鹿的血戰中,第一個衝過終點。
參考資料:
https://techcrunch.com/2025/08/03/inside-openais-quest-to-make-ai-do-anything-for-you/
本文來自微信公眾號“新智元”,作者:新智元,編輯:定慧、好睏,36氪經授權發佈。




