2017 年夏天,在谷歌大腦(Google Brain)一間平常的辦公室裡,八個年輕人敲完了論文《Attention Is All You Need》的最後一個字符。當時,幾乎沒有人意識到這篇論文會在接下來的幾年裡徹底引爆萬億美元的 AI 革命。用盧卡斯·凱澤(Łukasz Kaiser)自己的話說:“對我們來說,那不過是辦公室裡極其普通的一天(just another day in the office)。”
這八位作者相繼離開谷歌,成為了硅谷歷史上最傳奇的“Transformer 八子”。
將近十年後的今天,已經身為 OpenAI 資深科學家的盧卡斯每天用 Cursor 來協助研究,好玩的是,他讓 AI 做的第一件事,居然是花了兩天時間,去完美復現他十五年前因為丟了源碼而再也無法運行的學術論文。
這個親手參與設計了全球最大“統計機器”的人,在桌前坦言:“我們其實根本還沒有參透 ‘學習’ 本身的真正奧秘。”
在盧卡斯眼裡,今天的行業陷入了一種奇怪的盲目狂熱。大模型像是一個極度低效的學習者,它必須吞噬掉整個互聯網萬億級的語料,窮盡所有錯誤的表象規律,才極其被動地去“理解”一個底層的概念。這不僅與人類的學習方式背道而馳,也正在讓當前的 Scaling Law 撞上效率的冰山。
去年,當盧卡斯在與 CSDN 高級副總裁李建忠對談時,他曾潑下冷水,指出“推理模型目前僅相當於極早期的 RNN 階段”。一年過去,當大模型的預訓練大步跨越明顯放緩,行業全面轉向 Agent 落地和工程化探索時,時間正精準地印證著他的“冷思考”。
以下為這場對話的要點速覽:
大語言模型確實能學會一個概念,但前提是必須窮盡所有的其他可能。它是在泛化,但它用的是一種我們無法完全參透的、“外星人”式的獨特思維在泛化。
模型目前還無法敏銳地覺察到自己是否正在一條死衚衕裡越跑越遠。
隨著越來越多的人開始將這些系統融入日常工作,我們將積累海量的、長達數週乃至數月的真實人類工作流數據。一旦有人把強化學習應用到這些複雜的工作流中,或許會帶給我們意想不到的驚喜。
AI 行業每隔一段時間就會經歷一次技術海嘯;你必須時刻把籌碼壓在那個代表【明天】的趨勢上,而不是一味貪戀【今天】的繁華。
當你離開了主力實驗室的庇護,一看到採購顯卡所需的天文數字和稀缺性,可能也會面臨不小的骨感現實。
在 OpenAI 的核心力量被 ChatGPT 這一現象級產品的繁華光芒所牽制時,Anthropic 做出了一次極明智的戰略選擇:將所有重兵死死壓在“代碼”這一個戰場上,用絕對的專注在巨頭的盲區裡築起堅實的護城河。
我們直覺上認為它應該更聰明
主持人:我想,沒有比“泛化”更好的開場話題了。這可以說是當前全行業共同關注的焦點。去年 11 月,我聽您提到過一個核心問題:單靠推理是否足以實現泛化,還是說我們必須尋找全新的路徑。那已經是半年前的事了,在日新月異的 AI 行業裡,這簡直相當於過了好幾年。在這段時間裡,您對這個問題的看法有了怎樣的變化?
Lukasz:如果看一看現在的 Transformer 結合了推理和智能體(Agent),並賦予它們訪問系統外殼(Shell)和各種工具的能力,它們所展現出的能力確實驚人。與兩年前相比,更不用說在 Transformer 誕生之前,我們所取得的進展簡直不可思議。如果以前有人告訴我,只需拿一個“預測下一個 Token”的簡單模型,給它加上思維鏈、強化學習和工具,就能發揮出如此威力,我是絕對不會相信的。就拿我個人來說,我每天都會花好幾個小時和 Cursor 交流,它的表現非常出色。你和它討論工作中遇到的難題,它不僅能心領神會,還能直接幫你落地實現。這真的太神奇了。
然而,硬幣的另一面是,我們總覺得它和人類還是不太一樣,距離我們心中期待的那種極限似乎還差了一口氣。我們直覺上認為它應該更聰明,應當能憑藉更少的數據實現泛化,完成跨度更大的思維躍升,並以極少的信息獲取新的概念。
我最近做過一個類比:有人開玩笑說,美國人總是在窮盡了所有錯誤選項之後,才會做正確的事。大語言模型也是如此。它們確實能學會一個概念,但前提是必須窮盡所有的其他可能。你需要餵給它上萬億個 Token,讓它把所有表象的規律都摸索一遍。只有當這些表象規律再也無法解釋新事物時,它才會極其被動地去理解底層邏輯。但這絕非人類的學習方式。我們只需要極少的數據就能掌握一個概念,有時甚至能憑空虛構出一些概念——儘管不一定完美,但我們做到了。因此,我們總覺得背後一定還隱藏著某種其他機制,能實現高得多的泛化效率,並擁有一種更本質、更具長期性的理解能力。
不過,這目前還只是一種直覺。每當我們試圖去精準捕捉這種缺失的機制時,它似乎又煙消雲散了——或者更準確地說,是 Transformer 很快又追了上來。在這段時間裡,兩條路線都在成長。Transformer 變得越來越強大,但尋找替代方案的聲音也變得愈發堅定。
如今,不少實驗室正在探尋“後 Transformer 時代”(post-Transformer)的新架構,並且已經取得了一些耐人尋味的研究成果。行業裡確實正在發生一些有趣的變化。至於最後誰能勝出?我目前也無從知曉。我認為雙方都有非常堅實的立論依據,而這個博弈的過程將極其引人入勝。
主持人:這對我們的聽眾來說一定非常有吸引力。您在最近的 NeurIPS 演講中也隱喻過這種“空氣中的異動”——似乎正有什麼事情發生,悄然推動著一些新興實驗室(Neolabs)和研究人員自立門戶,去探索那些有別於主流大廠主導架構的替代方案。這種若隱若現的感覺究竟源自何處?是來自於某些早期的實驗突破,還是僅僅出自研究者的本能直覺?您能為聽眾們把它描述得更具象一些嗎?
Lukasz:我認為很大程度上是直覺,而且我們必須保持清醒,因為這種氛圍很多時候是在舊金山的各種派對和閒聊中發酵出來的。它在某種程度上可能會自我強化。但我相信,這其中也包含著一些極其本質的東西。其實楊立昆(Yann LeCun)早在多年前就闡述過類似的觀點。
我們的模型雖然被稱為“神經網絡”,旨在模仿人類的大腦,但其實它們並沒有真正做到這一點。哪怕存在某些相似性,兩者也有著本質的區別。如果你觀察人類是如何學習、如何行事,就會發現我們能用少得多的數據,做出遠比現有模型更復雜的事情。作為某種“學習機器”,人類似乎擁有某種底層的核心能力,而這恰恰是當前模型所缺失的。因此,從根本上說,這裡一定存在某些尚未被髮掘的科學規律,而不僅僅是一時的情緒氛圍。
當然,反方的論點也很明確:這些模型在訓練中動輒消耗數萬億個 Token,而人類一輩子也接觸不到這麼多數據,所以我們其實根本沒有針對“小數據訓練”去優化這些模型。如果你擁有等量的算力,但面臨數據限制,你完全可以通過微調 Transformer 展現出比現在好得多的性能。這時有人會質疑:為什麼要多此一舉?我們手頭有的是數據,而且這已經成了一門龐大的產業。但即便我們嘗試用和人類等量的數據去訓練——話說回來,人類還要接收海量的視覺輸入,在真實世界中移動並採取行動,這種數據的維度和純文本截然不同,所以兩者很難簡單地進行對比,這也是為什麼目前很難給出一個蓋棺定論的科學結論。
但這種直覺始終縈繞:我們在機器學習領域,仍有極具價值的未知領地尚未開發。令人振奮的一點在於,一旦我們找到了這塊缺失的拼圖,現有的技術可能會迎來更上一層樓的質變。當然,也可能並不會;或許在海量數據的沖刷下,這種差距根本無足輕重。誰知道呢?但作為一名研究人員,這無疑令我著迷,我相信許多同行也有同感。
Transformer 的魅力毋庸置疑,其推理能力甚至能解決前沿的數學研究問題。你最近一定聽說了 AI 在數學領域取得的新突破。由於我早年也做過數學研究,這對我來說簡直太神奇了。我從未想過在這麼短的時間內,計算機竟然能像一個真正的學者一樣,和我在如此高的水平上探討數學。但它確實做到了,這簡直不可思議。
然而,作為一名機器學習研究人員,我轉念一想:我們其實並沒有真正參透“學習”本身的奧秘。模型確實在學習,這毋庸置疑,但它需要如此龐大的數據和算力支撐,總讓人覺得距離終極真理還差了最後一步。這僅僅是一種直覺,或者說一時的氛圍嗎?它在某種程度上更像是一種現實,但一切還有待時間來驗證。
主持人:探尋這一謎題背後的研究價值確實不言而喻。但也有人會持相反看法:即便模型和人類不一樣又如何?既然我們擁有海量的數據,且這套方法行之有效,這就足夠了。當然,有些領域確實面臨著數據匱乏的困境,比如新藥研發,在這些地方,如何利用有限的數據進行高效學習至關重要。但現實世界中的許多核心挑戰,其實並沒有那麼嚴重的數據瓶頸。
有時我覺得這兩派人是在各說各話。主流實驗室的人可能會對楊立昆的觀點嗤之以鼻,這也很正常。畢竟考慮到目前湧入 AI 領域的鉅額資金,那些不受數據限制的問題確實在以驚人的速度被逐一攻克。
Lukasz:但很快,所有剩下的瓶頸都將演變成數據受限的問題,或者說這種趨勢已經顯現了。特別是要想在物理世界中交出滿意的答覆,你就必須在某種程度上解決這個問題。因為物理世界不像虛擬的文本或互聯網世界那樣可以無限擴展數據,一旦你在某種特定的機器人硬件上進行訓練,數據擴展的效率就會大打折扣。物理世界是一個巨大的挑戰。當然,人們目前正在嘗試利用模擬數據和第一人稱視角的視頻數據,這些都是成本更低的替代方案。
我是 Waymo 的忠實粉絲。每次有人問我“說好的自動駕駛汽車在哪兒呢?” 我總是開玩笑說,我每天都在坐啊,它們不就在這兒嗎?但他們最近卻取消了高速公路駕駛,原因僅僅是無法應對某些施工區域。感覺他們被這種施工路段的問題困擾了許多年。我相信他們在模擬系統中跑了數百萬英里,在真實路況下也積累了相當多的里程,但系統依然無法將“城市施工區”的經驗順利泛化到“高速公路施工區”。這讓人覺得不合常理。
我不知道具體的癥結出在哪裡,但任何一個拿到駕照的青少年,甚至任何一個普通人,都不會面臨這樣的困惑。我們人類有很多缺點,但絕不會出現“能在城市施工路段開車,到了高速公路施工路段就抓瞎”的情況。施工區就是施工區,道理是一樣的。
主持人:您認為這其中的一部分挑戰,可以通過對 Transformer 的內部改進來解決嗎?在接下來的幾年裡,您希望能看到什麼,從而能對這個問題有一個更清晰的答案?
Lukasz:機器學習研究最讓人興奮的地方,就在於它的面向非常寬廣。你永遠無法提前預知到底需要調整架構、數據、損失函數,還是優化過程。每種思路都有其合理的立論依據,而且到頭來,你可能需要在各個維度上都做一些調整。Transformer 確實偉大,但它的偉大也離不開“預測下一個詞”的損失函數;你也可以讓它配合強化學習(RL),但前提是必須引入思維鏈(Chain of Thought)。這些技術拼圖只有在嚴絲合縫地拼接在一起時,才能展現出威力。
如果未來出現顛覆性的新路徑,也許每個環節都需要重新推敲。但同樣也有可能,Transformer 的某些核心組件會延續下去。例如,注意力機制(Attention)大概率還會保留,只不過需要其他新機制的協同。
我的機器學習生涯是從循環神經網絡(RNN)開始的,所以“循環”(Recurrence)這一結構在我心中始終佔據著特殊的位置。我非常喜歡它的邏輯美感。從某種意義上說,推理能力的崛起讓循環機制重新回到了舞臺中央,因為大模型每生成一個新 Token,其實都是在重複調用同一套權重。但在實際應用中,這種伴隨稀疏損失的強化學習卻能承載如此多的計算並最終奏效。這真的很神奇。
每當我們嘗試以其他方式引入循環機制時,似乎總差了那麼臨門一腳。但這就引出了一個老問題:我們究竟付出了多大的努力去嘗試它?不知道你或聽眾們是否瞭解,有一些諸如 TRM 和 HRM 的循環模型。它們雖然體量極小,但在數獨(Sudoku)乃至 ARC-AGI 這種極具挑戰性的基準測試中,卻展現出了驚人的實力。雖然它們目前還處於玩具測試的階段,但表現確實亮眼。我認為,現在許多處於前沿的“後 Transformer 架構”,其核心思路就是試圖將這種循環機制與大語言模型進行融合。這客觀上非常有趣。
純粹的 Transformer 架構在應對這類邏輯難題時表現並不盡如人意,但只要注入一些循環機制、做一些架構上的微調,或者稍微改變一下損失函數,它的表現就能大幅飆升。即便在極小的尺度上,你也能實現非常驚人的突破。這種思路能否最終泛化到語言層面,並帶給我們夢寐以求的能力?這非常值得期待。幸運的是,目前正有幾家實驗室在這條路上深耕。
除此之外,今年我們迎來了智能體(Agent)的爆發。對我而言,這恐怕是我從事機器學習研究二十年來,日常工作方式所經歷的最大一次變革。
這相當於把一週的工作縮短到了一天
主持人:不知道您有沒有嘗試去量化過,您認為 AI 讓您的工作效率提升了多少?
Lukasz:這個我還真的能給出相對準確的量化指標。我最近在一臺私人電腦上嘗試復現一些我一直很感興趣的老論文,甚至包括幾篇我自己寫的、但源碼已經丟失的論文。我以前曾嘗試手動復現過其中至少一篇,深知單單讓代碼跑通就需要大約三週的時間。但在 Cursor 的幫助下,我只用了兩天就完成了。
這相當於把一週的工作縮短到了一天——整整 5 到 10 倍的效率躍升。也許我當年如果更拼一些能更快,但這種改變無疑徹底重塑了你的研究節奏,讓你能夠毫無顧慮地去嘗試新想法。我現在甚至可以同時開啟三個並行的實驗並讓它們自主運行,而以前手寫代碼時,我一次只能專注做一件事。它不僅極大地提高了速度,還帶來了多線程並行的能力。
在做一些非生產環境的私人項目時,我基本上已經不再一行行去看代碼了。曾有朋友問我,這會不會讓我思維的敏銳度有所退化。我仔細思考過這個問題,答案恰恰相反。雖然我不用再去緊盯每一個類名或每一個細微的函數,但我深知智能體隨時可能偏離軌道。比如有一次跑評估(Eval)時,它在運行中遇到了一些輔助損失,居然自作主張地又塞進了一個完全不挨邊且錯得離譜的輔助損失。
因此,你的大腦必須對系統到底在運行什麼保持全盤的、絕對的掌控。它的損失函數是什麼?它的底層架構是什麼?你必須心中有數。你只是不需要去操心類名叫什麼,或者某個函數的具體拼寫細節。能夠讓智能體去精準實現你腦海中的構想,這種信任感令人驚歎。大多數時候當我們去複核時,會發現它完成得嚴絲合縫。
因為你的大腦必須高度集中於機器學習邏輯本身——損失函數如何設計、批次大小(Batch Size)如何調整,我反而覺得現在對研究項目的底層掌控力,比以前親力親為時還要高。過去在實現一個點子時,在真正跑通代碼之前,我不得不把精力耗費在無數瑣碎的調試細節上,隨後還要跳回宏觀視角,在這個過程中常常會遺漏一些精妙的設計。
而現在,你完全沉浸在心流(Flow)之中。你只需要從機器學習的本質出發去思考應該發生什麼,把指令傳達給智能體,驗證它的輸出,一切就自然而然地運轉起來。這不僅僅是節約了時間,更讓研究本身變成了一種極大的享受。我想,這可能是最近科研人員中流行的一種輕度狂熱吧——我們根本停不下來。
主持人:OpenAI 曾公開表示,他們的目標是在今年 11 月之前讓 AI 達到研究員助理(實習生)的水平。作為一名在日常科研中重度使用 Cursor 的學者,您覺得我們距離這個目標有多近?您如何看待這個里程碑?
Lukasz:它的表現確實非常接近一名實習生了,但你依然必須緊盯它的產出。就像我剛才提到的,它可能會自作主張地加上一些你根本沒有要求的損失函數,純粹是因為在它的邏輯裡這聽起來挺合理的。我不知道真實的實習生會不會這麼幹,也許在他們非常有創造力的時候會吧。
我有時也會嘗試讓它自主運行一夜,給它設定一個宏觀目標,比如“改進模型以降低困惑度(Perplexity)”。但這從來行不通。它只會開始做一些無關痛癢、毫無研究價值的小修小補。所以,它目前肯定還沒達到獨立研究員的高度。
主持人:要在這個方向上實現突破,未來的可行路徑是什麼?
Lukasz:這又繞回了我們最開始的討論。其實早在 Transformer 誕生之前,我就長期致力於機器學習中的“長上下文”和“記憶機制”研究。後來我們把長上下文帶入了 Transformer 時代,實現了百萬級別的 Token 長度,這在注意力機制的框架下已經是一個極其驚人的規模了。
然而在當前的智能體時代,我發現像 grep 甚至 ripgrep 這樣的工具才是長上下文的真正解法。我們只需要把海量的內容寫入文件,賦予智能體使用 grep 檢索的能力,讓它去建立索引文件並像一個小型圖書館那樣去運作。
作為一名研究人員,如果五年前有人告訴我這是解決長上下文的方法,我一定會嗤之以鼻,覺得這不過是一個投機取巧的輔助手段。但在機器學習領域,很多偉大的發明在最初看起來都像是一種權宜之計,比如 Dropout 機制。我們不應該以出身去評判技術,只要它切實有效,我們就應該大方接納。而這種方法的效果確實驚人。
你只需要加入少量的強化學習(RL),比如壓縮(Compaction)機制。如果說有什麼原因讓我堅定地選擇 Cursor 而非 Claude 的網頁版,那就是 Cursor 出色的上下文壓縮能力。
你可以讓一個對話長久延續下去,因為它非常擅長提煉核心信息。為什麼它能做得這麼好?我想這並沒有多麼高深莫測的秘密,無非是開發團隊設計了精妙的提示詞,並在其上套用了一些強化學習手段。如果幾年前你對我說,長上下文的終極方案只是用一點強化學習讓它學會用工具、在文件裡翻找東西、然後把內容提煉得足夠精簡以維持上下文,我一定會說這只是在貼膏藥,根本沒有觸及科學深度。但我們不以表面是否優雅來評價一個解法,我們只看療效,而它確實極為管用。
所以,關於它能否真正進化為一名獨立的研究員:有人持悲觀態度,認為這是不可能的,除非我們研發出某種全新的“後 Transformer”架構,讓它能理解更龐大的宏觀概念並擁有長期的目標導向。這確實是一個合理的立論。從目前來看,現有的路線似乎就能夠解決不少問題。
但另一些人則認為,當你和 Cursor 連續對話一個月之後,你完全可以引導它去覆盤這些對話,梳理出一些元模式(Meta-patterns),並將它們歸檔到文件裡,進而去思考如何加以利用。或許,如果我們收集成千上萬人的類似交互數據,並在其上進行強化學習訓練,AI 就會開始表現得像一個真正的學者。在某種程度上,人類學者也是這樣學習的:我們觀察前輩的研究,反覆做實驗,總結出一套最行之有效的方法論。
主持人:為什麼現在這種方法行不通呢?我相信肯定已經有人在這方面做過嘗試了。
Lukasz:我認為大家還沒有在這個方向上傾注足夠多的心血。有些人寫了一些提示詞,確實起到了一定效果,但也僅限於此。在我看來,真正的“Cursor 時代”大約是從去年聖誕節開始的。雖然在那之前 Cursor 就存在,我們也使用過,Claude 也同樣存在,但在聖誕節期間,每個人都真切地感受到了某種蛻變。
這似乎不僅僅是模型的升級,還涉及到整個 Harness 和一系列後訓練(Post-training)的精細打磨。這滿打滿算也才過了半年,如果你走出舊金山的 AI 行業圈子,你會發現還有大把的人完全沒有領略到這種改變,他們甚至會覺得我們這些重度依賴它的人有點狂熱過度。
這套系統開始真正發揮威力,也只是最近的事。我們甚至無法完全從理論上解釋這一飛躍。這並非一次宏大的預訓練參數大躍進所帶來的結果,即便這期間確實誕生了更強大的基座模型。想當年,我們從 RNN 跨越到 Transformer 時,大家可以非常輕易地將這種蛻變歸功於底層架構的徹底顛覆。而如今,雖然推理能力的重要性毋庸置疑,但去年聖誕節前後的那種蛻變依然有些讓人捉摸不透。框架升級了、後訓練優化了,新的預訓練模型也適時登場,多重因素交織在一起帶來了這次驚人的跨越,但你很難將其簡單地歸結為某一個單一的推手。
這其中充滿了各種交叉影響,因為我們無時無刻不在對系統的各個環節進行優化。但正因為它的效果如此驚人且至關重要,在激烈的市場競爭面前,大家都在爭分奪秒地進行商業化推廣,努力讓它普及到各個應用場景。這也導致大家還沒有足夠充裕的時間在“元層面”(Meta-level)上進行深度的理論解構。雖然一些探索已經拉開序幕,但在元層面上做研究,意味著你需要花一週的時間去捕捉某種模式,然後再嘗試將其落地,這需要數週的時間來進行系統迭代。
在現有的強化學習機制下,每一次方案迭代都需要進行大規模運行測試(Rollout)。如果一個測試周期長達數週,那麼單次訓練的時間就會被拉長到幾個月,這在工程實踐中是完全不切實際的。
這也正好印證了一個觀點:人類的學習與研究方式,或許能帶給機器學習深刻的啟示。人類可以花費數年時間去鑽研一項研究,而其間嘗試的次數其實極少。有些數學家會花上二十年去攻克一個難題,這成了他們一生中最璀璨的代表作。他們並沒有兩百個長達二十年的研究週期去反覆學習和試錯,但他們依然做到了。這其中的奧秘究竟是什麼?這絕對是一個極其迷人、且與當前 AI 發展高度相關的課題。我們目前尚未解開這個謎題。不過,隨著越來越多的人開始將這些系統融入日常工作,我們將積累海量的、長達數週乃至數月的真實人類工作流數據。一旦有人把強化學習應用到這些複雜的工作流中,或許會帶給我們意想不到的驚喜。
主持人:這是一個非常深刻的切入點。過去我們在擴展預訓練規模,或是研發初代推理模型時,優化路徑是極其明確且符合常理的——我們很清楚該在哪個維度上去堆積算力。別是去年聖誕節 Cursor 和 Claude 的突飛猛進,其背後的力量卻顯得有些神秘。如果無法精準定位這一變革的真正源頭,就很難看清接下來應該朝哪個方向發力,才能持續提升系統的核心能力。
Lukasz:確實如此,這確實有點讓人摸不著頭腦。我不知道具體的訣竅,並不代表行業裡真的無一人知曉。或許有些同行對真正的突破口抱有極強的信心,但我認為至少在目前,這絕非一個顯而易見的共識。技術實力其實已經默默積澱了很久,但那次蛻變之後,許多過去看似天方夜譚的設想在一夜之間化為了現實,這顯然是強化學習領域的某次巧妙的規模擴展(Scaling)所帶來的紅利。
品味是很難用具象語言去定義和拆解的
主持人:目前大家非常關注的一個問題是:我們已經在代碼和數學這類高度“可驗證”的領域目睹了翻天覆地的變化。但圍繞強化學習,有兩個揮之不去的核心疑問:第一,它在那些“不可驗證”的主觀領域究竟能走多遠?第二,我們能否在不依賴海量專有數據的前提下,在不同的全新領域中實現高效的泛化?在您看來,那些屬於“不可驗證領域”的核心難題該如何去攻克?在代碼和數學之外,您覺得下一個迎來突破的領域會是什麼?
Lukasz:其實在那些“不可驗證”的領域,我們已經取得了不錯的進展。以法律領域的 Harvey 或是一些醫學垂直應用為例,這些任務雖然沒有絕對硬性的驗證標準,但其中依然包含著大量可供交叉比對的可驗證環節。這些方面的成果相當喜人。此外,像 GPQA 這樣的基準測試在某種程度上也在評估這類綜合能力。行業裡有著極強的內在動力去這些領域開疆拓土。
事實上,直接給它們貼上“不可驗證”的標籤或許並不完全客觀。它們當然不像代碼或純數學那樣規則鮮明,但我認為人們其實誇大了數學的所謂“易驗證性”。
代碼在編程比賽的語境下的確是極易驗證的。但一旦你涉及到複雜的系統前端交互,它同樣變得難以用非黑即白的標準去界定。在數學領域,真正的學術論證過程很少是絕對純淨或容易自動核驗的。你當然可以使用 Lean 這樣的形式化工具,但大語言模型產出的大多數數學推導並沒有經過嚴格的形式化沉澱,因此也談不上絕對可驗證。這是一個由易到難的光譜,可驗證性是逐漸遞減的。
我曾有個私人興趣項目——嘗試把英語詩歌翻譯成波蘭語,這聽起來絕對是一門主觀性極強的藝術。但當你讓這些大模型來擔任審校者時,你會發現它們其實能捕捉到非常精妙的細節。它們能細緻地檢查押韻、節奏、甚至是文化背景的契合度。事實證明,如果我們參考人類過去的評審機制,主觀藝術同樣能在某種程度上被量化和驗證。
不過,這個詩歌翻譯項目也向我揭示了另一個道理:你完全可以把所有的客觀標準(押韻、字面、格律)都驗證得無懈可擊,但整首詩讀起來依然毫無靈魂,缺乏“品味”。因為品味是很難用具象語言去定義和拆解的。如果它能輕易被言說,那它就已經被公式化驗證了。然而無法言說並不代表我們感知不到,當你去閱讀它時,你大腦中的某種直覺會固執地提醒你,這裡面依然缺少了一些靈氣。
在某種程度上,這正是由於當前的強化學習範式,讓我們主動跳進了自己挖好的陷阱。它的運作邏輯非常簡單:只要有一個裁判能告訴你什麼是好,什麼是壞,模型就能針對性地不斷迭代、變得更強。這就是大模型現在的成長機制。每當我抱怨“我覺得這行字翻譯得毫無品味”時,總會有人對我說“那你教教它什麼是好品味”,而模型在大量的糾偏後,最終也確實能把這個具體的短板補上。就像圖像生成一樣,你很難給“美醜”下定義,但你完全可以通過讓成千上萬的人在訓練過程中不斷去點擊更美觀的圖,從而讓系統生成的畫作整體審美水準顯著提升。
因此,可驗證的邊界是非常模糊且富有彈性的。你可以通過收集人類的喜好,來獲取雖然稀疏但極為寶貴的數據信號。為什麼有些文字我會覺得缺乏審美?這顯然源自我的生活閱歷、知識積澱以及我對世界的感知方式。而模型為什麼寫不出這種靈性?這裡有兩種可能:第一是它經歷的深度體驗還不夠,第二則是它處理這些體驗的邏輯機制存在偏差。我認為這兩個原因兼而有之。但即便在現有的底層處理邏輯下,只要你給它喂入更豐富的真實人類體驗——比如收集上千人的主觀反饋——它的品味就會大上臺階。
任何漏洞都可以通過不斷地打補丁來補救。但如果我們可以不需要這樣辛苦地去補漏洞,那該有多好。你補好一個漏洞,它就不再是阻礙,而原本隱藏在暗處的下一個漏風處就會暴露成新的瓶頸。我們似乎陷入了這種無休止的循環。如果我們能擁有一種像人類大腦一樣的核心學習機制,從一開始就不需要我們去費盡心思地修補一個個規則死角,那該有多完美。
主持人:這意味著,在現有的底層架構下,任何人們聚焦的特定行業問題,其實最終都能被攻克?只是正像您所說的,這可能需要投入多得多的、經過精心篩選的專有數據,整個過程也遠遠沒有未來那種更為優雅的學習機制來得自然。在您看來,是否真的存在某類問題或領域,是當前的強化學習方法根本無法逾越的鴻溝?
Lukasz:目前來看似乎並沒有不可逾越的絕對障礙,但我們必須把商業和經濟成本考慮在內。在現有的技術路徑下,想要讓模型在某個特定領域展現出極其驚人的實力,你必須先擁有一款體量極大、價格極昂貴的頂級閉源基座模型。而且,它往往是一座閉源的象牙塔,你根本無法觸及其底層的核心權重。
雖然 OpenAI 提供了一些我很喜歡的強化學習微調 API,其他幾家大廠也在跟進,但這種非完全掌控的模式依然存在侷限。即便是通過 API 進行微調,由於你需要投入極其高昂的數據清洗和算力成本,整個過程依然極具挑戰。這往往需要依託於一家資源雄厚的公司、長期的合同以及海量的專業資源去鋪墊。如果這個問題本身有著極其重大的商業價值,那這條路當然值得走;但難道我們不更期待這樣一幅畫面:你只需跟模型聊聊天,它就能憑一己之力把事情解決得井井有條?
主持人:目前的基座模型是否展現出了通用的底層能力躍升?我們不妨想象這樣一個圖景:我們先從寫代碼開始,接著攻克數學,再把這套機制應用到法律和醫療,一個接一個地單點突破——哪怕暫時不追求跨領域的通用泛化。理想情況下,我們是否能期待在經過了一系列不同領域的強化學習探索之後,就像預訓練階段那樣,大模型在強化學習的維度上也能夠自發湧現出跨領域的通用泛化能力?
Lukasz:確實如此,這種自發泛化的跡象已經顯現了。比如原本並不在標準強化學習管道中的法律領域,當你和 Harvey 等垂直應用的開發者交談時,他們會發現某種理解力要麼會自發湧現,要麼只需要在頂層施加極其微弱的引導,系統就能瞬間開竅並融會貫通。通用泛化確實存在,但它的邊界似乎依然比我們預期的要狹窄一些。有些時候,它甚至無法在數學的兩個子領域之間完成順暢的遷移。
比如在國際奧林匹克數學競賽(IMO)中,幾何題在很長一段時間裡都是模型無法逾越的天塹。它明明可以極其輕鬆地解出其他方向的極難題目,但在幾何面前,大家總會嘆息:果然它沒有空間想象力。然而,當它接觸到了更多的幾何題目後,它便開始能從容應對了——它並沒有接觸到任何物理或空間維度的全新數據,無非是做了更多的幾何推導練習。
模型的泛化曲線呈現出一種奇特的“鋸齒狀”。它可能在這個維度上邁出了一大步,但在另一個在我們看來近在咫尺、僅僅是因為沒有完美契合它內部思維鏈表達的地方,卻會徹底卡殼。它是在泛化,但它用的是一種我們無法完全參透的、“外星人”式的獨特思維在泛化,這和人類的泛化常理存在著某種錯位。可能隨著訓練數據的持續堆積,它能夠覆蓋的盲區會越來越少。但我也非常理解為什麼許多決策者在面對這樣的系統時依然心存戒備,不敢輕易委以重任——因為你永遠無法提前預知它在什麼地方隱藏著致命的盲區,必須時刻提防它的出錯。
作為一名機器學習學者,在使用這些系統的過程中,我必須隨時保持高度的機警和審慎,因為任何一絲疏忽都可能被它帶偏。從學術研究的角度來看,這種高難度的磨練確實能讓我們保持敏銳,但從技術實用性的角度來說,這無疑是一項極大的挑戰,因為我們無不期待著它能更加圓潤溫和,而不是像現在這樣,渾身上下依然佈滿了鋒利的稜角。
硬件架構跟不上科研思路的瓶頸正在迅速消融
主持人:您剛才提到了受益於模型能力迭代的應用型公司。目前行業裡有一個非常重大的抉擇:作為一家應用型公司,是應該選擇與頂尖的實驗室建立深度合作,將自身的評測體系和行業洞察共享給他們,還是應該小心守護自己的專屬數據,並在其基礎上自建模型,避免將核心資產流失給大廠?我非常好奇,您怎麼看待當下依附於核心底座模型之上的應用層生態空間?
Lukasz:你的預訓練底座模型體量越大、性能越強,那些所謂的“鋒利稜角”就會被磨礪得越平滑。總體而言,這會讓你的應用開發之路變得順遂得多。無論是做強化學習還是在大模型上做微調,強大的基座都會讓後續工作事半功倍。這一定律的持久生命力確實令人歎服。
還記得一兩年前,行業裡盛行一種聲音,宣稱“大模型已死,小模型(SLM)才是未來”。我們今天確實見證了一批極其優秀的小模型,比如參數量僅有幾B的 Gemma 系列。當年在 GPT-3 的時代,大家都篤信在 100B 參數以下根本無法實現靠譜的零樣本學習(Zero-shot),但如今一個 3B 的模型就已經能展現出驚人的業務能力。這當然令人振奮,但如果你需要去攻克極其錯綜複雜的底層難題,並希望模型能極其輕巧地融入你的專屬數據和海量上下文,那麼沒有任何東西能替代真正龐大的超級模型。當然,它們的訓練和推理成本極高,部署門檻也讓許多人望而卻步。
主持人:對於非前沿領域的大眾而言,一個不太容易直觀感受到的事實是:新一代硬件設備究竟為算法帶來了多大的釋放空間。比如隨著英偉達 Blackwell 芯片的推出,模型能力也應聲上了一個臺階。我們很難分清,這究竟是因為強大的新硬件賦予了我們過去無法奢求的計算可能,還是僅僅在時間線上的一種偶合。您認為,底座架構是否會隨著硬件計算性能的每一次躍升,而順理成章地持續變強?
Lukasz:硬件性能的升級,無非體現在每秒浮點運算次數(FLOPs)和內存訪問帶寬這兩個維度上。你必須擁有足夠快的內存傳輸效率,才能讓海量的算力不被閒置。這是一個極其直接的硬性性能指標。
我最近在自己的私人電腦上裝了一張 5090 顯卡。它的實力真的非常驚人。單張 5090 就可以提供大約 200 Teraflops 的算力(在某些特定的混合精度下甚至能達到 400,但部分被禁用了)。要知道,我們當年撰寫 Transformer 論文時,所使用的 GPU 單卡算力僅有 9 Teraflops,整臺機器裝了 8 張卡,算上整機的運行開銷,整臺服務器的絕對算力大約也就 70 到 80 Teraflops。
而現在,我書桌下那臺普通的小型塔式電腦裡,單單一張顯卡就相當於當年五臺高性能服務器的算力總和。這意味著你完全可以在自己的書房或廚房裡,用單張顯卡跑完當年 Transformer 論文裡的所有實驗。而這僅僅用了不到十年的時間。這不能不說是科技史上的奇蹟。如今我們都在 BF16 精度下跑運算,但其實可以採用更低的精度,特別是在引入混合專家模型(MoE)之後,這能讓你在推理階段塞進更多的信息。
我們運行這些模型的硬件門檻極大地降低了,這也隨之拓寬了學術研究的廣度。你可以依靠海量極速的顯卡去訓練超級模型。無論是英偉達的 GPU 還是 Google 的 TPU,都維持著極其迅猛的迭代步伐,且在並行化方面越做越好。
但我認為,更讓人振奮的地方在於這極大地釋放了科研人員的創造力。我記得我剛加入 Google 的那會兒,科學界還在熱烈地探討模擬整個人類大腦究竟需要耗費多少 FLOPs。幾十年來的各種測算,最終都指向了 1 到 100 Petaflops 之間。當時,我們都覺得這至少需要數十年的硬件演進才能觸及。而如今,你只需要購買單張 GPU 或者在雲端租用幾臺機器,就能輕而易舉地摸到這個門檻。從理論上說,你現在甚至可以只花幾百或上千美元(而不是曾經令人望而卻步的數百萬美元),在短短一天內跑完相當於人類大腦一整年所處理的數據規模。
如果你腦海中誕生了一個關於人腦學習機制的新火花,你完全可以在短短几天內跑完並模擬人腦數年的學習歷程。在我看來,這種賦能比單純堆砌一個龐大模型更具顛覆性。它能幫助你掃清落地的一切障礙。我過去在研究 RNN 時常常覺得手腳被束縛,因為它是高度串行化的,在 PyTorch 裡跑得極其緩慢。雖然你完全可以通過手寫 CUDA 內核(CUDA Kernel)來解決加速問題,但手寫 CUDA 內核的門檻高得驚人。而如今,你可以讓智能體替你編寫 CUDA 內核,讓它和相對緩慢的單元測試進行交叉糾錯,這讓曾經的科研天塹瞬間變成了通途。雖然它們現在的內核編寫技術還不算完美,但已經完全展現出了可行性。要不了多久,更先進的模型就能做到:你只需要下達一條讓它“最大化壓榨硬件性能”的指令,它就能為你奉上完美的底層代碼。
那種“硬件架構跟不上科研思路”的瓶頸正在迅速消融。儘管硬件架構依然是並行的,但由於有智能體在底層為你源源不斷地手寫專屬的底層內核,你能夠嘗試的邊界已經不可同日而語。
主持人:行業內也有這樣一種論調:在缺乏頂尖實驗室那種超級算力底座的前提下,個人或普通機構幾乎無法開展有深度、有現實意義的學術研究。你當然可以去做一些基礎性的探索,但真理往往最終要在超級規模的算力池中接受檢驗,而普通人很難擁有這樣的平臺。但今天聽到您對學術界、民間極客和單卡創業者依然報以如此樂觀的期待,確實讓人倍感鼓舞。 您覺得在未來的演進中,這種大眾化科研的火種真的能延續下去嗎?
Lukasz:這取決於我當天的心情。在比較樂觀的日子裡,我深信這一點。科學史無數次向我們證明,真正優美的思想往往誕生於純粹的研究之中,未來的探索之路沒有理由中斷。但與此同時,我們手中現有的這套主流技術又確實展現出了強大的生命力,如果我們就此擱置、不去繼續挖掘它的潛力,那也無疑是極大的失策。幸好,目前行業的實驗室生態足夠多元。
在轉型加入實驗室之前,我也曾深耕於學術界。在象牙塔中搞科研最讓人陶醉的地方,就在於你可以毫無拘束地放飛自我,讓思想天馬行空。你確實無法在規模上和大廠硬碰硬,但即便在相對較小的尺度上——如今這個“小尺度”也早已不可同日而語——你依然能搞出非常前沿且不落窠臼的研究。你應該去嘗試那些完全跳脫出當前主流框架的、極具靈性與美感的點子。這才是做科研最本真的樂趣所在。
當然,並非所有的靈感都能結出碩果;有些方法在小規模下表現驚豔,一旦擴大參數規模就迅速崩潰。但如果你手頭擁有一臺主流的 8 卡服務器,你所處的研究起點就已經遠遠超越了五年前。五年前,大家通常只能在 MNIST 這類玩具數據集上做些微調;而現在,哪怕是在單一的物理節點上,你開展的也不再是小修小補的工作了。
我個人私下裡就經常使用安德烈(Andrej Karpathy)的 nanoGPT。這是一個 GPT-2 級別的模型,你只需要花上幾個小時,在一臺單卡機器上就能讓它跑起來。雖說現在的硬件設備確實有些昂貴,但隨著新一代 GPU 的交替,老一代的卡也終將普及開來。你能獨立嘗試的東西其實非常宏大,即使並非所有方法都能在超級算力下奏效,但在這個上下求索的過程中,那種智力激盪的快感是無與倫比的。
主持人:在定局之前,我還想向您請教另一個前沿方向——多模態模型。您在之前的播客中曾提及,我們在多模態領域還沒有取得真正顛覆性的進展。您目前依然持有這一觀點嗎?您如何看待當下多模態領域的發展格局?
Lukasz:大家顯然正在取得突破。或許,這其中的解法正指向類似於聯合嵌入預測架構(JEPA)的方向。目前我們在 Transformer 甚至擴散模型中所採取的多模態學習路徑,其底層邏輯最終都要落腳到去極其低效地預測每一個像素上。
但如果你轉過頭來看看人類,我們的大腦每時每刻都在吸收併吞吐海量的信息。我們的神經元響應速度相對而言其實非常慢——往往需要數百毫秒的反應時間——但我們的感官卻是全天候、全方位、無死角地接收著外界的數據洪流。我們成功地從這一浩若煙海的數據流中學習,卻並不需要像大模型一樣去自迴歸地預測每一個像素。人類的交互學習機制是高度並行的,並且在一個極其龐大的廣度上展開。我個人覺得,現有的模型機制還沒有真正觸及這一核心的精髓。這也許需要我們在基礎架構的研究上尋求新的突破。
行業裡也正在湧現出一些嶄新的思路,例如多流 Transformer 架構(Multi-stream Transformers)。標準的 Transformer 是對前文的 Token 進行注意力計算。而你可以設計多個並行的信息流去同步運轉,這雖然在架構上只是一個相對直接的小改進,卻蘊藏著極其巨大的威力。
當我在 Cursor 裡工作時,我可能會一不留神忘掉某件事,口頭對它說出來,然後我不得不等待它在終端跑完一條 Bash 命令——整個過程需要三分鐘。它必須等待我的輸入去校準方向,這種半自動化的狀態很難稱得上是高度實時的雙向互動。我們為了提升體驗而引入了各種臨時的拼貼手段,但在理想的世界中,萬物應該是無時無刻不在協同運轉的。人類的視覺、聽覺和表達是雙向一體的,而我們的模型也應該具備同樣的實時吞吐特質。隨著各大主力實驗室開始往這個維度上聚焦,這一願景大概率會化為現實。
但目前給人的感覺是,我們雖然在做“多模態”,卻缺乏真正能在底層支持“並行吸收”的革命性架構升級。在現有的運行機制下,Transformer 根本無法做到每毫秒輕鬆吞吐一張高分辨率圖像,因為在輸入端,它不得不先將畫面撕碎成一個個離散的小方塊(Patches),然後再極為低效地把它們串行拼接起來。這總讓人覺得彆扭;我們不應該把圖像切割成這些細小的補丁。感官信息應當像瀑布一樣毫無阻礙地流入並被瞬間整體消化。我認為在這方面,我們還沒有實現真正觸及本質的底層突破,不過,很高興看到大批同行已經在這個方向上潛心攻堅了。
你必須時刻把籌碼壓在代表明天的趨勢上
主持人:我非常想和您聊聊您在 OpenAI 的那段歲月以及您的心路歷程,因為那幾年確實風雲變幻,公司也屢屢成為鎂光燈下的焦點。在您任職期間,有哪些艱難而關鍵的抉擇,最終重塑並奠定了這家公司的基因?
Lukasz:我沒有參與公司最初期的那些決策,但在我任職期間,全公司曾面臨一個重大的抉擇:是否要徹底轉型、全力押注“推理”(Reasoning)。當時,公司管理層以及我們全體研發人員展現出了極大的魄力,決定不惜一切代價走這條路,把“推理”提升到與“預訓練”同等重要的戰略高度,致力於打造出真正具備推理內核的新一代模型,並將其推向市場。
在研發初期,這些專注於邏輯推理的模型在日常對話中顯得有些冷冰冰的,很難賦予它們生動的人性特徵;它們的反應速度也十分緩慢,甚至在今天依然存在這樣的瓶頸。當時很多人開始動搖:我們真的非走這條路不可嗎?用戶會不會其實更喜歡普通、流暢的對話模型?但 OpenAI 極其擅長在這個關鍵節點做出頂層決斷,義無反顧地在這條佈滿荊棘的路上狂飆,並在這個過程中摸索出一套高效的管理機制。
那時,我們旗下並存著兩條完全不同的模型產品線,想要把它們合併成一個統一的整體是一項極其艱鉅的工程。為了完成這一融合,我們耗費了漫長的時間,因為所有的技術底座都在急速演進。這是一個極難落子的決策,但如果我們當時沒有孤注一擲地向前推進,我們今天所享有的諸多強大能力或許就根本無法誕生。哪怕是今天的一些頭部大廠,依然在強化學習的精細對齊質量上面臨極大的趕超壓力,這也正好印證了“不留退路的專注”所能帶來的絕對領先優勢。
此後,OpenAI 以及行業的其他幾家頂尖實驗室都迎來了體量上的指數級增長,Anthropic 也是如此。由於我曾在 Google 工作了很長一段時間,我深知對於一家龐大的巨頭而言,想要做出如此大開大合的賭注是極其困難的,因為他們手頭有太多不可失去的資產,也有著層層繁瑣的既定彙報流程。我由衷希望 OpenAI 以及其他新興實驗室能將這種特立獨行的魄力延續下去。現有的技術手段固然極其優秀且依然能幫我們攻城略地,但假若未來某一天,真的閃現出屬於“後 Transformer 時代”的科學微光,這些超級實驗室是否有勇氣斷臂求生、果斷擁抱未來,還是會變得日益保守、畏葸不前?
當初我們在攻堅“推理”時,僅僅看到了微弱的早期曙光,並沒有海量完備的數據去論證,大家純粹是抱著一種堅若磐石的信念在奮力一搏。如今,雖然我們還沒看到具有壓倒性優勢的下一代通用架構,但一旦它顯露端倪,我們是需要一個全新的實驗室去重新點燃這團火,還是可以期待現有的主力玩家繼續去承擔這種未知的風險?至少,我認為 OpenAI 依然流淌著這種敢於做出冒險決策的基因。
主持人:這正是為什麼目前行業裡湧現出許多被稱為“新興實驗室”(Neolabs)的新生力量。就像傑裡·託雷克(Jerry Tworek)選擇自立門戶時所說,跳脫出傳統大廠的利益羈絆,反而能讓他們更加純粹、更加堅定地押注一個他們所堅信的正確方向。
Lukasz:這確實有其合理性。不過當你離開了主力實驗室的庇護,一看到採購顯卡所需的天文數字和稀缺性,可能也會面臨不小的骨感現實。當然,顯卡算力並不能代表科研的全部,一個由小而美的小團隊與大而全的超級實驗室共同構建的多元生態,對整個行業而言是非常健康的。
身處舊金山這個 AI 的暴風眼,你會被一種極其激烈的競爭與變革氛圍所包裹,因為目前現有的技術紅利遠遠還沒有被榨乾。我們依然有無數精妙的算法有待落地,數據工程有待升級,更大參數量的模型有待訓練,層出不窮的新構想在不斷湧現。它們雖然在當下還不成熟,但各方勢力正攜帶著海量的資金和智慧在不遺餘力地向前推進。
然而,一旦你走出舊金山,你會發現外界許多人對待 AI 的態度彷彿是它在去年就已經撞上了天花板、此後將永遠停步不前了。這無疑是一個極大的誤判。對我個人而言,現在手頭的這批代碼智能體簡直就是一次科技啟示錄。我願意直接將它們稱為通用人工智能(AGI)的雛形——當然,每個人對 AGI 都可以擁有自己獨特的定義。我們甚至可能像告別圖靈測試一樣,在不遠的將來逐漸淡忘 AGI 這個名詞。現在已經沒有多少學者去嚴肅地辯論“AI 是否通過了圖靈測試”了,因為技術早已輕鬆跨越了那道終點線。我們日常寫代碼所依賴的這些系統,毫無疑問已經展現出了卓越的智力,這本身就是一次劃時代的偉大躍遷。
主持人:目前的 AI 代碼生成領域的競爭極其慘烈。您認為,究竟什麼才是決定這些代碼產品成敗的關鍵,它們又該如何打出差異化優勢?您如何展望像 Cursor 和 Claude 這樣的工具在未來的前沿邊界?我認為這個代碼市場,足夠容納多個頂級玩家並存。
Lukasz:更核心的命題在於這些工具如何順暢地跨越到其他工作領域。代碼對我們這些技術人來說確實至關重要,但同樣的一套底層邏輯,其實完全可以賦能千行百業。每當我向圈外的朋友極力推薦 Cursor 時,它一上來就需要你關聯一個 GitHub 倉庫,這瞬間就勸退了大批零基礎的普通用戶。雖然它的上手門檻正在被不斷磨平,但由於它被死死地錨定在“代碼開發”這個垂直類目裡,大家根本意識不到它其實也能成為他們身邊的財務審計利器。相比於只需要打幾個字的 ChatGPT,Cursor 確實需要一定的適應期,而在使用 Claude 的深度開發界面時尤其如此。
最關鍵的博弈點在於:我們該如何把這種極致的效率帶給其他的平凡行業?Anthropic 顯然正在讓 Claude 承載這一願景,努力為這些極其堅固的底層硬核能力,穿上一件更為溫和親民的外衣。
主持人:這種跨界實力是絕對存在的。作為一名機器學習的從業者,我經常看到模型能輕而易舉地處理極其繁複的 Excel 數據和各種辦公雜務。但坦率地說,想要真正完美地駕馭並引導它們,依然需要一定的專業技巧。雖然這是一項可以通過學習掌握的本領,但大多數職場人每天都處於極度忙碌的狀態中,可能很難抽出大把的閒暇去潛心鑽研,所以我們必須要把產品的交互門檻削減到極致。另外,出於數據安全和系統穩定性的底層考量,你也不能讓它們在毫無監管的狀態下徹底脫韁。信任的建立需要一個漫長的沉澱。
問題在於,我們該如何說服大眾去投入最初的時間成本,來構建這種寶貴的信任? 回看過去,您認為為什麼 Anthropic 反而能捷足先登,在代碼這個核心方向上率先斬獲重大的成功?
Lukasz:Anthropic 當時做了一個極為明智的戰略選擇——將所有重兵死死地壓在“代碼”這一個戰場上。而在那個時期,OpenAI 的核心力量正被 ChatGPT 這一現象級產品的光芒所牽制。
普通對話聊天固然擁有無限想象力,但 Anthropic 做出這一決策的核心考量,在於試圖尋找一個他們能夠建立絕對優勢、築起堅實護城河的特定維度。這純粹是一個關乎戰略抉擇的頂層智慧。AI 行業每隔一段時間就會經歷一次技術海嘯;你必須時刻把籌碼壓在那個代表“明天”的趨勢上,而不是一味貪戀“今天”的繁華。ChatGPT 在 2025 年時讓人驚歎連連,但到了 2026 年,大眾的閾值已經徹底被拉高,而到了 2027 年,我們必將目睹又一次顛覆性的洗牌。
風向轉換的速度超乎所有人的想象。一旦你在一個被大家所忽視的小切口上做出了極其堅決的飽和攻擊,你就能換來極其豐厚的技術回報。並不是說 OpenAI 曾經忽視了代碼——我們也一直在深耕這個方向,這也是為什麼我們在後續能極其迅速地完成趕超,但它在當時確實並非全公司的絕對核心主線。當一個相對精簡的初創團隊在極短時間內迎來用戶體量的火山噴發時,如何做好斷舍離、維持絕對的專注,是避免整個工程架構崩潰的唯一法則。
主持人:您剛才提到了一個非常經典的博弈:一方面需要傾盡全力把當前的紅利榨乾到極致,另一方面又要時刻維持開放的視角,以便在新的未知領域出現微光時,能迅速騰出手來重金押注。OpenAI 最近經歷了一段眾所周知的資源收攏期,我們可以看到他們傾注了極大心血在代碼和生產力工具的交付上,而對諸如 Sora 這類相對探索性的前沿方向進行了主動的戰略微調與降溫。在您看來,該如何去精妙地平衡“把當下的業務打磨透徹”與“呵護那些未來可能燎原的小火苗”之間的內在拉扯?
Lukasz:這完全取決於一個團隊的底層基因、組織體量、資金充沛度以及戰略眼光。例如 Google,他們就極力維持著一個多線並進、百花齊放的龐大科研體系。外界也常常以此來苛責 Google,認為他們雖然發明了無數顛覆性的技術(比如 Transformer 本身),卻總是無法以最敏銳的姿態將其商業變現。但這種極其雄厚的學術根基也帶給他們一個巨大的不對稱優勢:一旦外界在某個方向上突破了瓶頸,Google 就能憑著手頭現成且無比強悍的研究團隊,在極其短暫的時間內抹平差距並完成趕超。
主持人:您覺得他們真的已經徹底追上來了嗎?目前外界依然充斥著大量認為他們慢了半拍的討論。
Lukasz:在常規聊天對話的維度上,我認為他們已經毫無疑問地齊頭並進甚至超越了。他們唯一的短板可能在於……不知道你有沒有親測過最新一代的 Gemini。我在 Google I/O 大會後親自體驗了它,震驚地發現我甚至很難分清我究竟是在使用 Cursor 還是在面對 Gemini 本身。當時在推特上也有大把充滿調侃與讚歎的相關討論。這確實是一件大事。
與此同時,我最近也嘗試用新發布的 Gemini 3.5 Flash 去跑了我的一些日常代碼項目,但它的表現略遜一籌,似乎還沒有真正跨過我們去年聖誕節體驗到的那道能力天塹。對於我個人的高階工作而言,它確實還有點力不從心,但我相信它也即將迎來質變。
當你選擇走廣撒網、多線佈局的研究路線時,你無形中建立了一個極佳的防護網,確保自己在未來的競爭中絕不會徹底掉隊。但代價是,你很難在某個新興風口上斬獲那種“首發奪魁”的絕對成就,就像 Anthropic 在代碼生成領域所創造的成績。能夠有這樣一批小而美、敢死隊一般的實驗室衝鋒在前,把一個個未知的能力孤島變成堅實的技術坦途,這太讓人熱血澎湃了,科學的發展本就該如此。
OpenAI 曾經也擁有極其狂熱且純粹的“冒險下注”文化,但如今它早已成長為一艘巨輪。當你的模型承載著億萬級用戶的日常生產力,或者就像 Google 搜索需要為數十億人的查詢保駕護航時,系統的任何一次顛覆與失重都關係重大。我們當然希望速度越快越好,但在狂飆中如果把整條路都拆毀,其所要吞噬的代價是無法估計的。因此,讓這些頭部大廠在向前飛奔的同時、保持對底層基建的一份敬畏與平穩,或許是對整個生態最好的安排。
勇敢地去檢驗你腦海中的奇思妙想
主持人:許多人都在思索開源與閉源大模型之間的差距。我們似乎能感受到兩股完全相反的底層力量在激烈拉扯:一方面,模型蒸餾(Distillation)的門檻似乎正變得越來越低,大批開發者正在利用閉源模型的強悍輸出去反哺並錘鍊開源模型;而另一方面,那些最頂尖、體量最龐大的超級模型,其運行開銷已高昂到連巨頭都無法直接面向大眾提供服務的程度,這逼得他們不得不在內部對大模型進行多重蒸餾。
在您的直覺中,未來幾年開源與閉源之間的這條技術鴻溝,究竟是會被抹平,還是會越來越像一道天塹?
Lukasz:這很難一概論。在當前階段,模型體量依然在很大程度上決定了實力的上限。你確實可以通過蒸餾讓模型瘦身,但蒸餾版在真正的極端任務中,很少能展現出和完整版底座同等的實力。例如,我總能感受到那些標榜輕快省錢的 Flash 版本與傳統的 Pro 或者是 Sonnet 版本之間,依然存在著肉眼可見的實力斷層——它們往往是在對侷限妥協後做出的蒸餾產物,高階玩家往往還是要耐心等待那個毫無保留的最高配版本。哪怕是在同一款模型的家族中,我已經想不起上一次我不得不依賴“Mini”系列是什麼時候了。它們雖然便宜好用,但在我的日常開發中,它們遲早會犯下一個極其低級的錯誤,逼著我花大把時間去排查和調試,最終我總會重新換回那個最龐大、最昂貴的旗艦版本。
你確實可以通過學習去提煉並汲取閉源模型中的智慧,儘管各大閉源實驗室本能上極力抵制這種直接的蒸餾行為,但他們通常也不會選擇趕盡殺絕。如果開源模型在未來一潰千里、被遠遠甩下,那對整個行業而言將是一場災難。但我認為這種最壞的情況大概率不會發生,因為目前有足夠多實力雄厚的商業集團和極客組織在不遺餘力地支持開源生態。我也非常理解世界各國的顧慮:如果你讓一個國家的市政服務、核心醫院的行政系統去高度依附於大洋彼岸某一家商業公司的閉源接口,一旦對方突然宕機或者限制訪問,後果是不堪設想的。這就催生了對“主權模型”(Sovereign Models)的剛性訴求。
即使這些主權模型在絕對實力上慢了半個身位,但面對日常那些常規的行政事務,他們也並不需要去動用最高的計算能力。因此,維繫開源生態繁茂的底層動力是長期存在的;與此同時,閉源實驗室為了確保用戶心甘情願地為最頂尖的“黃金特權”付費,也必將不遺餘力地瘋狂在最前沿開路。這兩股力量互相牽制、螺旋上升的奇妙動態,在未來很長一段時間裡都將是行業的主旋律。當然,預測 AI 的未來向來是一件高風險的事情。
主持人:確實是極具遠見的洞察。在過去的一年裡,您對 AI 領域的哪一件事徹底改變了原本的看法?
Lukasz:我以前真的沒有想到,我們竟然能在這麼短的時間內擁有如此強悍、媲美人類助理的代碼生成實力。這徹底顛覆了我先前的偏見。過去,我幾乎很少在日常工作中去重度依賴 AI 助手。當時常有人問我怎麼用 ChatGPT,我回答說無非是隔幾天向它提個簡單的問題罷了。
我從未奢望過自己會去天天對著電腦對話,而現在,它已經成了我形影不離的工作夥伴。我更沒想過自己會徹底告別傳統的代碼編輯器,而現在我幾乎不親手敲代碼了,取而代之的是,我更像是一個端坐其後的指揮官,命令助手去實施各種代碼微調。這對我個人的科研範式來說是一場天翻地覆的遷徙。
主持人:在過去幾年深度參與這些大模型的研發之後,您對安全以及所謂的“人類存在性風險”(Existential Risk)的擔憂,是在逐年攀升還是有所降低?
Lukasz:我的核心立場其實一直相當平穩。我始終認為,我們既不需要整天生活在杞人憂天的恐慌中,但也絕對沒有資格盲目樂觀。結合目前的編程開發水平來看,我們真正應該把目光投向的,是那些已經近在咫尺的、極其具體的現實安全隱患——例如系統可能會被不法分子用來發起黑客攻擊,或者對關鍵基礎設施造成癱瘓性破壞。
我至今依然認為,這才是亟待我們共同攻堅的真正主陣地。這並不意味著我們可以將“存在性風險”拋在腦後;相反,有大批專門的學者去論證這一課題,併為科技樹的發展拉起嚴密的



