蘋果渴求的端側AI殺出黑馬：首個認知模型誕生，4B打平GPT-5.4

06-09

【導讀】在剛過去的 WWDC 上，蘋果 Siri 借 AI 重生成為關鍵詞，「端側模型」已成趨勢！更早些時候，Andrej Karpathy 呼籲把模型的知識剝離、只保留「認知核心」。一家中國公司稱已將這一方向落地——4B 參數，在群體智能任務中打出千億級大模型的效果。端側認知模型到底能改變什麼？

昨晚，Siri 借谷歌的 1.2 萬億參數 Gemini 重生了。

但另一頭，亞馬遜卻關停了引發巨大爭議的內部 AI 排行榜——員工大量使用 AI 工具，算力開銷飆升到管理層坐不住的地步。

Token 成本成為 AI 大規模落地最硬的一道門檻。

Andrej Karpathy 之前在訪談中給出了一個方向：把模型裡的海量知識剝離掉，只保留一個會思考、會規劃、知道自己不知道什麼的「認知核心」，1B 級別的參數就夠。

https://www.youtube.com/watch?v=lXUZvyajciY

這個方向正在被驗證。

一個 4B 參數的模型，在群體智能任務中打出了與 GPT-5.4 等千億級大模型等效的結果，且支持端側部署。

它來自一家創始團隊，曾以 3.6B 參數擊敗 65B Llama、登頂日本 Hugging Face 排行榜。

這次，他們做出了行業首個端側認知模型。

Karpathy 的預言與算力的賬單

算力成本的壓力已經從技術議題變成財務議題，亞馬遜的案例只是縮影。

亞馬遜員工通過內部 AI 工具頻繁調用大模型推理能力，推高了整體算力支出，管理層不得不緊急叫停排行榜機制以遏制用量。

https://www.ft.com/content/b1a62a7f-6df5-4c90-94ce-64ce9c9961b6?syn-25a6b1a6=1

行業正在經歷第一次「Token 大撤退」，部分公司的單日算力消耗已觸及億元量級。

大模型的商業模型正撞上一堵結構性的牆：能力越強、推理鏈越深，單次調用的成本越高。

GPU 成本營收比（GPU Cost / Revenue）是所有 AI 公司的命門指標，模型參數持續膨脹的趨勢只會讓這個指標更難看。

Karpathy 的思路指向了另一條路：他提出需要把模型中的「記憶 / 知識」剝離掉，保留他所說的「認知核心」——

一個被剝離了海量事實、知識，但保留了思考算法、智能魔力、問題解決策略的實體。

他判斷，即便是 10 億參數的規模，也能實現高效的類人思考：

它會像人類一樣思考……如果你問它一個事實性問題，它可能需要查閱——它知道自己不知道，並且會去查。

這段話在技術社區引發廣泛討論。

方向上的共識正在形成，但能將「認知核心」從概念推到可部署產品的團隊，才是真正的變量。

4B 打平千億級，新程 Alpha 做了什麼

把 Karpathy 描述的「認知核心」從概念推到產品的，是明日新程（Nextie）。

這家公司對開源推理模型進行強化學習訓練，將知識與認知解耦——剝離模型中記憶性的知識儲備，強化泛化和抽象思考能力。

產出的模型被命名為新程 Alpha，參數規模 4B，已完成訓練並部署上線，是行業中首個被定義為「認知模型」的產品。

具體到其訓練方法，其實是一個不常見的起點。

明日新程團隊整理了 1800 年至 2020 年、跨越 220 年的人類學術論文，試圖梳理出群體智能的演化脈絡，為技術路線提供參照系。

在這套研究的基礎上對開源推理模型做強化學習，專注於提升泛化和抽象能力。

舉一個直觀的例子：經過訓練的模型能將圍棋選手的決策模式遷移到日常生活場景——Karpathy 所說的「保留思考算法」，在這裡有了具體的技術實現。

效果層面，新程 Alpha 在群體智能任務（辯論、反思、挑戰、投票等環節）中，4B 參數達到了與 GPT-5.4 等大模型等效的輸出質量，算力消耗和推理速度優勢顯著。

更值得關注的是這個模型解鎖的場景空間，有三層遞進的意義。

第一層，多智能體決策質量提升。

在 Harness 決策框架中，使用認知模型的輸出效果優於推理模型。

底層模型從「推理」升級為「認知」，帶來的是多智能體協作系統中決策鏈條整體質量的躍升。

第二層，算力成本量級縮減。

4B 相較於千億參數模型，雲端部署的算力開銷大幅降低。

新程 Alpha 同時支持端側部署——MacBook、具身智能設備均可直接運行，算力成本由此轉化為電力成本。

這對具身智能領域意義尤為突出：用千億參數大模型驅動一個家務機器人，每一次「思考」都在消耗大量 Token，綜合成本可能比請人做家務還貴。

4B 端側部署，從根本上改寫了這筆賬。

第三層，主動式（Proactive）場景解鎖。

當前絕大多數 AI 產品運行在響應式（Reactive）模式下——用戶發指令，模型響應。

Proactive 模式意味著智能體自主決策和執行任務，無需等待命令，商業規模遠超 Reactive，但過去始終被算力成本擋在門外。

新程 Alpha 支持 24 小時不間斷運行，成本可控，讓此前因為太貴而擱置的主動式智能體成為可能。

團隊底牌與賽道卡位

明日新程由微軟小冰創始團隊創立。

這個團隊的標籤是「用小參數贏大參數」——此前訓練的開源模型 rinna（日本小冰）以 3.6B 參數登頂日本 Hugging Face 排行榜第一名，擊敗了 65B 參數的 Llama。

新程 Alpha 用 4B 打平千億級大模型的效果，延續的是同一套技術基因。

明日新程重倉佈局的賽道是——Harness 群體多智能體。

這條賽道正在獲得頭部資本的確認——2026 年 3 月，OpenAI 投資了初創公司 Isara，直接將其估值推至 6.5 億美元，Isara 的研究方向正是多智能體協同與群體智能。

https://www.wsj.com/tech/ai/openai-backs-new-ai-startup-seeking-bot-army-breakthroughs-a0b1fedc

在該領域的智能深度評測（IDI）中，明日新程的綜合表現顯著高於任何單一大模型。

資本驗證了賽道價值，評測數據則標定了明日新程在賽道內的位置。

兩個信號疊加，指向同一個判斷：群體多智能體是 AI 應用層的下一個高價值方向，認知模型是驅動它的關鍵基礎設施。

認知模型改變的不只是參數，更是賬本

GPU 成本營收比（GPU Cost / Revenue）是懸在所有 AI 公司頭上的達摩克利斯之劍。

認知模型提供的解法，核心指向經濟模型的重構——用 4B 達到千億級才能達到的效果，意味著同樣的輸出質量對應一套完全不同的成本結構。

明日新程在採訪中透露，團隊正在訓練泛化能力更強的 8B 認知模型。

如果 4B 已經能在群體智能任務中對標 GPT-5.4，8B 的能力邊界值得期待。

一個更深遠的問題留給整個行業：當端側全天候運行一個認知模型的成本降至可忽略的水平，今天所有基於「用戶發指令、模型響應」的響應式（Reactive）模式設計的 AI 產品，可能都需要重新審視自己的產品形態。

主動式（Proactive）智能體的商業想象空間，遠超當前響應式（Reactive）智能體下的一切。

本文來自微信公眾號“新智元”，作者：ASI啟示錄，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論