CaptainZ

CaptainZ

1,210個推特粉絲

關注

Prompt Engineer. Focusing on AI, ZKP and Onchain Game. 每周一篇严肃深度长文分析。专注于AI，ZKP，全链游戏，心理学。BS in Physics, MSc in Optics & Finance 可能南方的阳光照着北方的风可能时光被吹走从此无影无踪

動態

近期的發展邏輯是：coding agent 引發開發民主化，進而工作效率提升工具大爆發，造成token消耗以幾何速度暴增，進而大模型公司賺的盆滿缽滿，接著數據中心業務大爆發，然後半導體產業（其實就是礦機制造業）繼續超高速發展，最後是電力等基礎設施受益匪淺，也算是閉環了。我估計美聯儲也是看到了同樣的情況，所以大幅上調了未來美國gdp增長率

sub agent 真是費token啊，幾個子代理並行幹活，一天時間就把 codex 的plus用量給幹完了。開5個plus賬號是 100美金一個pro是200美金不知掉哪個划算？

閉源版龍蝦，不管咋說，mac mini 都是要買起來的

Announcing Personal Computer. Personal Computer is an always on, local merge with Perplexity Computer that works for you 24/7. It's personal, secure, and works across your files, apps, and sessions through a continuously running Mac mini.

感覺是龍蝦原生的大一統LLM模型啊今天openai發佈新模型 GPT-5.4，算是一個“模型能力大一統”成果：OpenAI首次在單一模型中，把推理（Reasoning）、編程（Coding）、計算機原生交互（Computer Use）、深度網頁搜索以及百萬級Token上下文全部揉碎、重組，焊死在了同一個模型裡。 twitter.com/hiCaptainZ/status/...

看來現在的互聯網工具都值得再重新做一個針對ai agent 使用的版本 twitter.com/hiCaptainZ/status/...

唐傑 @jietang 是清華大學教授、智譜（GLM 系列模型出自他們家）AI 首席科學家，也是國內最懂大模型的人之一。他剛發了長微博（見評論），談 2025 年對大模型的感悟。有意思的是，唐傑和 Andrej Karpathy 的觀察有不少共鳴，但也有一些不同的側重點。兩個頂級專家的視角放在一起看，能看出更完整的圖景。內容比較長，但有句話我要特別放在前面高亮一下： > AI 模型應用的第一性原理不應該是創造新的 App，它的本質是 AGI 替代人類工作，因此研發替代不同工種的 AI 是應用的關鍵如果你是在做 AI 應用開發，應該反覆思考一下這句話：AI 應用的第一性原理不是創造新產品，而是替代人類工作。想清楚這一點，很多事情的優先級就清楚了。唐傑的核心觀點有七層邏輯。 --- 第一層：預訓練沒死，只是不再是唯一主角預訓練仍然是讓模型掌握世界知識和基礎推理能力的根基。更多的數據、更大的參數、更飽和的計算，依然是提升模型智商最高效的辦法。這就像還在長身體的孩子，飯量（算力）和營養（數據）必須管夠，這是物理規律，沒法繞彎。但光有智商不行，現在的模型有個毛病：容易“偏科”。為了刷榜單（Benchmark），很多模型都在針對性地做題，導致在真實複雜的場景下反而不好用。這好比孩子上完九年義務教育（預訓練）後，必須把他扔到真實的職場裡去實習，去處理那些書本上沒有的爛攤子，這才是真本事。所以接下來的重點是“中後訓練”（Mid and Post training）。中後訓練這兩個階段負責「激活」模型的能力，尤其是長尾場景的對齊能力。什麼是長尾場景？就是那些不常見但真實存在的需求。比如幫律師整理某類特殊合同、幫醫生分析某種罕見病的影像。這些場景在通用測試集裡佔比很小，但在真實應用中至關重要。通用 benchmark 一方面評測了模型效果，但也可能讓很多模型過擬合。這和 Karpathy 說的「訓練在測試集上是一門新藝術」觀點一致。大家都在刷榜，但榜單刷了高分不等於能解決真實問題。 --- 第二層：Agent 是從「學生」到「打工人」的跨越唐傑用了個形象的比喻： > 如果沒有 Agent 能力，大模型就是個“理論博士”。一個人書讀得再多，讀到了博士後，如果不能動手解決問題，那也只是知識的容器，產生不了生產力。這個比喻精準。預訓練是上課，強化學習是刷題，但這些都還在「學習階段」。Agent 是讓模型真正「幹活」的關鍵，是進入真實世界、產生實際價值的門檻。不同 Agent 環境的泛化和遷移並不容易。你在一個代碼環境裡訓出來的能力，換到瀏覽器環境就不一定好使。現在最簡單的辦法，還是不斷堆更多環境的數據，針對不同環境做強化學習。以前我們做 Agent，是給模型外掛各種工具。現在的趨勢是，直接把使用工具的數據寫進模型的“DNA”裡去訓練。這聽起來有點笨，但確實是當下最有效的路徑。 Karpathy 也把 Agent 列為今年最重要的變化之一，他以 Claude Code 為例，強調 Agent 要能「住在你電腦裡」，調用工具、循環執行、解決複雜問題。 --- 第三層：記憶是剛需，但怎麼做還沒想清楚唐傑花了不少篇幅講記憶。他認為，模型要在真實環境中落地，記憶能力是必須的。他把人類記憶分成四層： - 短期記憶，對應前額葉 - 中期記憶，對應海馬體 - 長期記憶，分佈在大腦皮層 - 人類歷史記憶，對應維基百科和史書 AI 也要模仿這個機制，大模型對應的可能是： - Context 窗口 → 短期記憶 - RAG 檢索 → 中期記憶 - 模型參數 → 長期記憶一個思路是「壓縮記憶」，把重要信息精簡後存在 context 裡。目前的“超長上下文”只是解決了短期記憶，相當於把它能用的“便籤紙”變長了。如果未來 context 窗口足夠長，短中長期記憶都有可能實現。但有個更難的問題：怎麼更新模型自身的知識？怎麼改參數？這還是個未解難題。 --- 第四層：在線學習和自我評估，可能是下一個 Scaling 範式這一段是唐傑觀點裡最前瞻的部分。現在的模型是“離線”的，訓練好就不變了。這有幾個問題：模型不能真正自我迭代，重新訓練浪費資源，還會丟掉很多交互數據。理想情況是什麼？模型能在線學習，邊用邊學，越用越聰明。但要實現這一點，有個前置條件：模型要知道自己對不對。這就是「自我評估」。如果模型能判斷自己的輸出質量，哪怕是概率性地判斷，它就知道了優化目標，就能自我改進。唐傑認為，構建模型的自我評價機制是個難題，但也可能是下一個 scaling 範式的方向。他用了幾個詞：continual learning、real time learning、online learning。這和 Karpathy 提到的 RLVR 有一定呼應。RLVR 之所以有效，正是因為有「可驗證的獎勵」，模型能知道自己對不對。如果這個機制能泛化到更多場景，在線學習就有可能實現。 --- 第五層：AI 應用的第一性原理是「替代工種」這是對我啟發最大的一句話： > AI 模型應用的第一性原理不應該是創造新的 App，它的本質是 AGI 替代人類工作，因此研發替代不同工種的 AI 是應用的關鍵 AI 的本質不是創造新的 App，而是替代人類工作。兩條路： 1. 把以前需要人參與的軟件 AI 化。 2. 創造對齊人類某個工種的 AI 軟件，直接替代人類工作。 Chat 已經部分替代了搜索，同時還融合了情感交互，下一步就是替代客服、替代初級程序員、替代數據分析師。所以，明年 2026 年的爆發點在於“AI 替代不同工種”。創業者要思考的不是“我要開發個什麼軟件給用戶用”，而是“我要造一個什麼樣的 AI 員工，去幫老闆把某個崗位的人力成本砍掉”。換句話說，別老想著做一個「AI+X」的新產品，先想想哪些人類工作可以被替代，再倒推產品形態。這和 Karpathy 關於「Cursor for X」的觀察遙相呼應。Cursor 本質上是「程序員這個工種的 AI 化」，那麼各行各業都會出現類似的東西。 --- 第六層：領域大模型是個「偽命題」這個觀點可能會讓一些人不舒服，但唐傑說得很直接：領域大模型就是個偽命題。都 AGI 了，哪有什麼“領域專用（domain-specific）AGI”？之所以有領域大模型存在，是因為應用企業不願意在 AI 模型公司面前認輸，希望用領域 know-how 構建護城河，把 AI 馴化為工具。但 AI 的本質是「海嘯」，走到哪裡都會把一切捲進去。一定會有領域公司主動走出護城河，被捲進 AGI 的世界。領域的數據、流程、Agent 數據，慢慢都會進入主模型。當然 AGI 還沒實現之前，領域模型會長時間存在。但這個時間窗口有多長？不好說，AI 發展實在太快了。 --- 第七層：多模態和具身智能，前景光明但道路艱難多模態肯定是未來。但當下的問題是：它對提升 AGI 的智能上限幫助有限。文本、多模態、多模態生成，可能還是分開發展更高效。當然，探索三者結合需要勇氣和錢。具身智能（機器人）更難。難點和 Agent 一樣：通用性。你教會機器人在 A 場景幹活，換個場景又不行了。怎麼辦？採數據、合成數據，都不容易，還貴。怎麼辦？採數據，或者合成數據。都不容易，都貴。但反過來，一旦數據規模上去了，通用能力出來了，自然就形成門檻。還有個問題往往被忽略：機器人本身也是個問題。不穩定、故障頻繁，這些硬件問題也在限制具身智能的發展。唐傑預判 2026 年這些都將取得長足進步。 --- 把唐傑這篇文章串起來，其實是一張相當清晰的路線圖：當下，預訓練 scaling 依然有效，但要更重視對齊和長尾能力。近期，Agent 是關鍵突破口，讓模型從"會說"進化到"會做"。中期，記憶系統和在線學習是必修課，模型要學會自我評估和迭代。長期，工種替代是應用的本質，領域護城河會被 AGI 沖垮。遠景，多模態和具身各自發展，等待技術和數據的成熟。 --- 把唐傑和 Karpathy 的觀點放在一起看，能看出幾個共識：第一，2025 年的核心變化是訓練範式的升級，從「預訓練為主」變成「多階段協同」。第二，Agent 是里程碑，是模型從學習走向幹活的關鍵跨越。第三，benchmark 刷分和真實能力之間有鴻溝，這個問題越來越被重視。第四，AI 應用的本質是替代或增強人類工種，不是為了做 App 而做 App。不同的側重點也有意思。Karpathy 更關注「AI 是什麼形狀的智能」這個哲學問題，唐傑更關注「怎麼讓模型在真實場景落地」的工程問題。一個偏「理解」，一個偏「實現」。兩個視角都需要。理解清楚了，才知道方向對不對；工程跟上了，才能把想法變成現實。 2026 年，會很精彩。 twitter.com/dotey/status/20035...

期待 GLM-4.7 在 Claude code裡面使用的測評

玩 vibe coding 半年了，差不多也是同樣的體悟，從 agent coding 變成上下文管理，最後變成了文檔管理

郭宇 guoyu.eth

今天回东京后继续研究 agentic coding，由于本地项目是从 0 搭建的，需求和文档随着和 codex 和 cc 的沟通越来越明确，文档的复杂程度也逐渐加深。这让我越来越觉得 agentic coding 本质上是文档管理的艺术，从 vibe coding 发展了一年后，自然语言编程似乎慢慢将软件工程转换为了文档工程。

前天這個測試很顯然就是為了留給“幣安人生”上現貨用的，挺確定性的事情，就看啥時候了，最快也許是明天週六？ twitter.com/hiCaptainZ/status/...

Loading..