CaptainZ的想法

12-24

唐傑 @jietang 是清華大學教授、智譜（GLM 系列模型出自他們家）AI 首席科學家，也是國內最懂大模型的人之一。他剛發了長微博（見評論），談 2025 年對大模型的感悟。有意思的是，唐傑和 Andrej Karpathy 的觀察有不少共鳴，但也有一些不同的側重點。兩個頂級專家的視角放在一起看，能看出更完整的圖景。內容比較長，但有句話我要特別放在前面高亮一下： > AI 模型應用的第一性原理不應該是創造新的 App，它的本質是 AGI 替代人類工作，因此研發替代不同工種的 AI 是應用的關鍵如果你是在做 AI 應用開發，應該反覆思考一下這句話：AI 應用的第一性原理不是創造新產品，而是替代人類工作。想清楚這一點，很多事情的優先級就清楚了。唐傑的核心觀點有七層邏輯。 --- 第一層：預訓練沒死，只是不再是唯一主角預訓練仍然是讓模型掌握世界知識和基礎推理能力的根基。更多的數據、更大的參數、更飽和的計算，依然是提升模型智商最高效的辦法。這就像還在長身體的孩子，飯量（算力）和營養（數據）必須管夠，這是物理規律，沒法繞彎。但光有智商不行，現在的模型有個毛病：容易“偏科”。為了刷榜單（Benchmark），很多模型都在針對性地做題，導致在真實複雜的場景下反而不好用。這好比孩子上完九年義務教育（預訓練）後，必須把他扔到真實的職場裡去實習，去處理那些書本上沒有的爛攤子，這才是真本事。所以接下來的重點是“中後訓練”（Mid and Post training）。中後訓練這兩個階段負責「激活」模型的能力，尤其是長尾場景的對齊能力。什麼是長尾場景？就是那些不常見但真實存在的需求。比如幫律師整理某類特殊合同、幫醫生分析某種罕見病的影像。這些場景在通用測試集裡佔比很小，但在真實應用中至關重要。通用 benchmark 一方面評測了模型效果，但也可能讓很多模型過擬合。這和 Karpathy 說的「訓練在測試集上是一門新藝術」觀點一致。大家都在刷榜，但榜單刷了高分不等於能解決真實問題。 --- 第二層：Agent 是從「學生」到「打工人」的跨越唐傑用了個形象的比喻： > 如果沒有 Agent 能力，大模型就是個“理論博士”。一個人書讀得再多，讀到了博士後，如果不能動手解決問題，那也只是知識的容器，產生不了生產力。這個比喻精準。預訓練是上課，強化學習是刷題，但這些都還在「學習階段」。Agent 是讓模型真正「幹活」的關鍵，是進入真實世界、產生實際價值的門檻。不同 Agent 環境的泛化和遷移並不容易。你在一個代碼環境裡訓出來的能力，換到瀏覽器環境就不一定好使。現在最簡單的辦法，還是不斷堆更多環境的數據，針對不同環境做強化學習。以前我們做 Agent，是給模型外掛各種工具。現在的趨勢是，直接把使用工具的數據寫進模型的“DNA”裡去訓練。這聽起來有點笨，但確實是當下最有效的路徑。 Karpathy 也把 Agent 列為今年最重要的變化之一，他以 Claude Code 為例，強調 Agent 要能「住在你電腦裡」，調用工具、循環執行、解決複雜問題。 --- 第三層：記憶是剛需，但怎麼做還沒想清楚唐傑花了不少篇幅講記憶。他認為，模型要在真實環境中落地，記憶能力是必須的。他把人類記憶分成四層： - 短期記憶，對應前額葉 - 中期記憶，對應海馬體 - 長期記憶，分佈在大腦皮層 - 人類歷史記憶，對應維基百科和史書 AI 也要模仿這個機制，大模型對應的可能是： - Context 窗口 → 短期記憶 - RAG 檢索 → 中期記憶 - 模型參數 → 長期記憶一個思路是「壓縮記憶」，把重要信息精簡後存在 context 裡。目前的“超長上下文”只是解決了短期記憶，相當於把它能用的“便籤紙”變長了。如果未來 context 窗口足夠長，短中長期記憶都有可能實現。但有個更難的問題：怎麼更新模型自身的知識？怎麼改參數？這還是個未解難題。 --- 第四層：在線學習和自我評估，可能是下一個 Scaling 範式這一段是唐傑觀點裡最前瞻的部分。現在的模型是“離線”的，訓練好就不變了。這有幾個問題：模型不能真正自我迭代，重新訓練浪費資源，還會丟掉很多交互數據。理想情況是什麼？模型能在線學習，邊用邊學，越用越聰明。但要實現這一點，有個前置條件：模型要知道自己對不對。這就是「自我評估」。如果模型能判斷自己的輸出質量，哪怕是概率性地判斷，它就知道了優化目標，就能自我改進。唐傑認為，構建模型的自我評價機制是個難題，但也可能是下一個 scaling 範式的方向。他用了幾個詞：continual learning、real time learning、online learning。這和 Karpathy 提到的 RLVR 有一定呼應。RLVR 之所以有效，正是因為有「可驗證的獎勵」，模型能知道自己對不對。如果這個機制能泛化到更多場景，在線學習就有可能實現。 --- 第五層：AI 應用的第一性原理是「替代工種」這是對我啟發最大的一句話： > AI 模型應用的第一性原理不應該是創造新的 App，它的本質是 AGI 替代人類工作，因此研發替代不同工種的 AI 是應用的關鍵 AI 的本質不是創造新的 App，而是替代人類工作。兩條路： 1. 把以前需要人參與的軟件 AI 化。 2. 創造對齊人類某個工種的 AI 軟件，直接替代人類工作。 Chat 已經部分替代了搜索，同時還融合了情感交互，下一步就是替代客服、替代初級程序員、替代數據分析師。所以，明年 2026 年的爆發點在於“AI 替代不同工種”。創業者要思考的不是“我要開發個什麼軟件給用戶用”，而是“我要造一個什麼樣的 AI 員工，去幫老闆把某個崗位的人力成本砍掉”。換句話說，別老想著做一個「AI+X」的新產品，先想想哪些人類工作可以被替代，再倒推產品形態。這和 Karpathy 關於「Cursor for X」的觀察遙相呼應。Cursor 本質上是「程序員這個工種的 AI 化」，那麼各行各業都會出現類似的東西。 --- 第六層：領域大模型是個「偽命題」這個觀點可能會讓一些人不舒服，但唐傑說得很直接：領域大模型就是個偽命題。都 AGI 了，哪有什麼“領域專用（domain-specific）AGI”？之所以有領域大模型存在，是因為應用企業不願意在 AI 模型公司面前認輸，希望用領域 know-how 構建護城河，把 AI 馴化為工具。但 AI 的本質是「海嘯」，走到哪裡都會把一切捲進去。一定會有領域公司主動走出護城河，被捲進 AGI 的世界。領域的數據、流程、Agent 數據，慢慢都會進入主模型。當然 AGI 還沒實現之前，領域模型會長時間存在。但這個時間窗口有多長？不好說，AI 發展實在太快了。 --- 第七層：多模態和具身智能，前景光明但道路艱難多模態肯定是未來。但當下的問題是：它對提升 AGI 的智能上限幫助有限。文本、多模態、多模態生成，可能還是分開發展更高效。當然，探索三者結合需要勇氣和錢。具身智能（機器人）更難。難點和 Agent 一樣：通用性。你教會機器人在 A 場景幹活，換個場景又不行了。怎麼辦？採數據、合成數據，都不容易，還貴。怎麼辦？採數據，或者合成數據。都不容易，都貴。但反過來，一旦數據規模上去了，通用能力出來了，自然就形成門檻。還有個問題往往被忽略：機器人本身也是個問題。不穩定、故障頻繁，這些硬件問題也在限制具身智能的發展。唐傑預判 2026 年這些都將取得長足進步。 --- 把唐傑這篇文章串起來，其實是一張相當清晰的路線圖：當下，預訓練 scaling 依然有效，但要更重視對齊和長尾能力。近期，Agent 是關鍵突破口，讓模型從"會說"進化到"會做"。中期，記憶系統和在線學習是必修課，模型要學會自我評估和迭代。長期，工種替代是應用的本質，領域護城河會被 AGI 沖垮。遠景，多模態和具身各自發展，等待技術和數據的成熟。 --- 把唐傑和 Karpathy 的觀點放在一起看，能看出幾個共識：第一，2025 年的核心變化是訓練範式的升級，從「預訓練為主」變成「多階段協同」。第二，Agent 是里程碑，是模型從學習走向幹活的關鍵跨越。第三，benchmark 刷分和真實能力之間有鴻溝，這個問題越來越被重視。第四，AI 應用的本質是替代或增強人類工種，不是為了做 App 而做 App。不同的側重點也有意思。Karpathy 更關注「AI 是什麼形狀的智能」這個哲學問題，唐傑更關注「怎麼讓模型在真實場景落地」的工程問題。一個偏「理解」，一個偏「實現」。兩個視角都需要。理解清楚了，才知道方向對不對；工程跟上了，才能把想法變成現實。 2026 年，會很精彩。

宝玉

@dotey

12-20

Andrej Karpathy 是 OpenAI 联合创始人、前特斯拉 AI 总监，也是全球最有影响力的 AI 研究者之一。他刚刚发布了一篇 2025 年 LLM 年度回顾。第一个大变化：训练方法的范式升级 2025 年之前，训练一个好用的大模型基本是三步走：预训练、监督微调、人类反馈强化学习。这个配方从 2020 x.com/karpathy/statu…