2025 年 6 大 AI 範式變革：從 RLVR 訓練、Vibe Coding 到 Nano banana

Web3Caff

01-04

2025 年是大語言模型飛速發展且充滿變數的一年，我們取得了豐碩的成果。以下是我個人認為值得關注且稍感意外的 “範式變革”，這些變革改變了格局，至少在概念層面讓我印象深刻。

原文：2025 LLM Year in Review

作者：Andrej Karpathy

編譯：Tim，PANews

2025 年是大語言模型飛速發展且充滿變數的一年，我們取得了豐碩的成果。以下是我個人認為值得關注且稍感意外的 “範式變革”，這些變革改變了格局，至少在概念層面讓我印象深刻。

1. 基於可驗證獎勵的強化學習（RLVR）

2025 年初，所有 AI 實驗室的 LLM 生產堆棧大致呈現為以下形態：

預訓練（2020 年的 GPT-2/3）；
監督微調（2022 年的 InstructGPT）；
以及基於人類反饋的強化學習（RLHF，2022 年）

長期以來，這是訓練生產級大語言模型的穩定且成熟的技術堆棧。到了 2025 年，基於可驗證獎勵的強化學習已成為主要採用的核心技術。通過讓大語言模型在多種可自動驗證獎勵的環境中進行訓練（例如數學、編程解題），這些模型能自發形成在人類看來類似 “推理” 的策略。它們學會將問題解決分解為中間計算步驟，並掌握多種通過反覆推演來解決問題的策略（可參考 DeepSeek-R1 論文中的案例）。在之前的堆棧中，這些策略很難實現，因為對於大語言模型而言，最優的推理路徑和回溯機制並不明確，必須通過獎勵優化來探索適合自身的解決方案。

與監督微調階段和基於人類反饋的強化學習階段（這兩個階段相對簡短，屬於計算量較小的微調）不同，基於可驗證獎勵的強化學習涉及對客觀、不可博弈的獎勵函數進行長時間優化訓練。事實證明，運行基於可驗證獎勵的強化學習在單位成本內能帶來顯著的能力提升，這大量消耗了原本計劃用於預訓練的計算資源。因此，2025 年大語言模型能力的進步主要體現在，各大 AI 實驗室消化了這一新技術帶來的巨大計算需求。總體而言，我們看到模型的規模大致相當，但強化學習訓練的時間大幅延長。這個新技術的另一個獨特之處在於，我們獲得了一個全新的調控維度（以及相應的 Scaling 定律），即通過生成更長的推理軌跡、增加 “思考時間”，將模型能力作為測試時計算量的函數進行控制。OpenAI 的 o1 模型（2024 年底發佈）是首個基於可驗證獎勵的強化學習模型的演示，而 o3 的發佈（2025 年初）則是一個明顯的轉折點，讓人能直觀感受到質的飛躍。

2. 幽靈智能 vs. 動物鋸齒狀智能

2025 年讓我（以及我認為整個行業）第一次開始從更直觀的角度，去理解大語言模型智能的 “形態”。我們並非在 “演化、培育動物”，而是在 “召喚幽靈”。大語言模型的整個技術棧（神經架構、訓練數據、訓練算法，尤其是優化目標）都截然不同，因此我們在智能領域得到與生物智能迥異的實體，這毫不意外，用動物的視角去審視它們並不恰當。從監督信息的角度看，人類神經網絡是為了在叢林環境中實現部落生存而優化的，而大語言模型神經網絡則是為了模仿人類文本、在數學難題中獲取獎勵、在競技場上贏得人類的點贊而優化的。隨著可驗證領域為基於可驗證獎勵的強化學習提供了條件，大語言模型在這些領域附近的能力會 “突增”，總體上呈現出一種有趣的、鋸齒狀的性能特徵。它們可能同時是博學的天才，也是困惑且認知困難的小學生，隨時可能在破解誘導下洩露你的數據。

與此相關的是，2025 年我對各類基準測試普遍產生了漠然和不信任感。核心問題在於，基準測試本質上幾乎都是可驗證的環境，因此極易受到基於可驗證獎勵的強化學習以及通過合成數據生成的較弱形式的影響。在典型的 “刷分最大化” 過程中，大語言模型團隊不可避免地會在基準測試所在的小塊嵌入空間附近構造訓練環境，並通過 “能力鋸齒” 覆蓋這些區域。“在測試集上訓練” 已成為一種新常態。

橫掃所有基準測試卻依然未能實現通用人工智能，那又怎麼樣呢？

3.Cursor：LLM 應用的新層級

Cursor 最讓我印象深刻的一點（除了它今年迅速崛起之外），是它令人信服地揭示了一個新的 “LLM 應用” 層級，因為人們開始談論 “XX 領域的 Cursor”。正如我今年在 Y Combinator 演講中所強調的，像 Cursor 這樣的 LLM 應用，其核心在於為特定垂直領域整合與編排 LLM 調用：

它們負責 “上下文工程”；
在底層將多個 LLM 調用編排成日益複雜的有向無環圖，精細權衡性能與成本的平衡；為處於 “人在迴路” 中的人員提供應用特定的圖形界面；
並提供一個 “自主性調節滑塊”。

2025 年，圍繞這個新興應用層的發展空間已有大量討論。大語言模型平臺會通吃所有應用，還是大語言模型應用仍存有廣闊天地？我個人推測，大語言模型平臺的定位將逐漸趨近於培養 “通才型大學畢業生”，而大語言模型應用則負責把這些 “畢業生” 組織起來、進行精調，並通過提供私有數據、傳感器、執行器及反饋迴路，使其真正成為特定垂直領域中可以投入實戰的 “專業團隊”。

4.Claude Code：運行於本地的 AI

Claude Code 的出現，首次令人信服地展示了 LLM 智能體的形態，它以一種循環往復的方式，將工具使用與推理過程結合起來，從而實現更持久的複雜問題解決。此外，Claude Code 讓我印象深刻之處在於，它運行在用戶的個人電腦上，與用戶的私有環境、數據與上下文深度結合。我認為 OpenAI 在此方向上的判斷有所偏差，因為他們將代碼助手、智能體的研發重點放在了雲端部署，即由 ChatGPT 編排的容器化環境，而非 localhost 本地環境。儘管雲端運行的智能體集群似乎是 “通往通用人工智能的終極形態”，但我們目前身處一個能力發展不均衡、且進展相對緩慢的過渡階段。在這樣的現實條件下，將智能體直接部署在本地計算機上，與開發者及其特定工作環境緊密協同，是更為合理的路徑。Claude Code 準確把握了這一優先順序，並將其封裝成一個簡潔、優雅、極具吸引力的命令行工具形式，從而重塑了 AI 的呈現方式。它不再只是一個像谷歌那樣需要訪問的網站，而是 “居住” 在你電腦中的一個小小精靈或幽靈。這是一種全新的、獨特的與 AI 互動範式。

5. Vibe Coding 氛圍編程

2025 年，AI 跨越了一個關鍵的能力門檻，使得僅通過英語描述就能構建各種令人驚歎的程序成為可能，人們甚至無需關心底層代碼。有趣的是，我曾在一次洗澡時的隨想推文中創造了 “Vibe Coding 氛圍編程” 這個詞，當時完全沒想到它會發展到如今的程度。在氛圍編程的範式下，編程不再是嚴格限定於高度訓練的專業人士的領域，而成為人人都能參與的事情。從這個角度看，它正是我在《賦能於人：大語言模型如何改變技術擴散模式》一文中所描述現象的又一例證。與迄今為止所有其他技術形成鮮明對比的是，普通人與專業人士、企業和政府相比，從大語言模型中獲益更多。但氛圍編程不僅賦能普通人接觸編程，也賦能專業開發者編寫出更多 “本不會被實現” 的軟件。在開發 nanochat 時，我就通過氛圍編程用 Rust 編寫了自定義的高效 BPE 分詞器，而不必依賴現有庫或深入學習 Rust。今年，我還用氛圍編程快速實現了多個項目原型，只為驗證某些構想是否可行。我甚至編寫過整個一次性應用，只為定位一個具體的漏洞，因為代碼突然變得免費、短暫、可塑、用後即棄。氛圍編程將重塑軟件開發的生態，並深刻改變職業定義的邊界。

6.Nano banana：LLM 圖形界面

谷歌的 Gemini Nano banana 是 2025 年最具顛覆性的範式轉換之一。在我看來，大語言模型是繼 1970、80 年代計算機之後的下一個重大計算範式。因此，我們將看到基於相似根本原因的同類創新，類似於個人計算、微控制器乃至互聯網的演進形態。特別是在人機交互層面，當前與 LLM 的 “對話” 模式，某種程度上類似於 1980 年代向計算機終端輸入指令。文本是計算機（及 LLM）最原始的數據表徵形式，卻並非人類（尤其是輸入時）的首選方式。人類實際上厭惡閱讀文字，它緩慢且費力。相反，人類更傾向於通過視覺和空間維度接收信息，這也正是傳統計算中圖形用戶界面誕生的原因。同理，大語言模型應當以人類偏好的形式與我們交流，通過圖像、信息圖、幻燈片、白板、動畫、視頻、網頁應用等載體。當前的早期形態已通過表情符號和 Markdown 等 “視覺化文本裝飾” 實現（如標題、加粗、列表、表格等排版元素）。但究竟誰會真正構建出大語言模型的圖形界面？從這個視角看，nano banana 正是這一未來藍圖的早期雛形。值得注意的是，nano banana 的突破性不僅在於圖像生成能力本身，更在於文本生成、圖像生成與世界知識在模型權重中交織形成的綜合能力。

免責聲明：作為區塊鏈信息平臺，本站所發佈文章僅代表作者及嘉賓個人觀點，與 Web3Caff 立場無關。文章內的信息僅供參考，均不構成任何投資建議及要約，並請您遵守所在國家或地區的相關法律法規。

歡迎加入 Web3Caff 官方社群：X(Twitter)賬號丨Web3Caff Research X(Twitter)賬號丨微信讀者群丨微信公眾號