【導讀】在剛過去的 WWDC 上,蘋果 Siri 借 AI 重生成為關鍵詞,「端側模型」已成趨勢!更早些時候,Andrej Karpathy 呼籲把模型的知識剝離、只保留「認知核心」。一家中國公司稱已將這一方向落地——4B 參數,在群體智能任務中打出千億級大模型的效果。端側認知模型到底能改變什麼?
昨晚,Siri 借谷歌的 1.2 萬億參數 Gemini 重生了。
但另一頭,亞馬遜卻關停了引發巨大爭議的內部 AI 排行榜——員工大量使用 AI 工具,算力開銷飆升到管理層坐不住的地步。
Token 成本成為 AI 大規模落地最硬的一道門檻。
Andrej Karpathy 之前在訪談中給出了一個方向:把模型裡的海量知識剝離掉,只保留一個會思考、會規劃、知道自己不知道什麼的「認知核心」,1B 級別的參數就夠。
https://www.youtube.com/watch?v=lXUZvyajciY
這個方向正在被驗證。
一個 4B 參數的模型,在群體智能任務中打出了與 GPT-5.4 等千億級大模型等效的結果,且支持端側部署。
它來自一家創始團隊,曾以 3.6B 參數擊敗 65B Llama、登頂日本 Hugging Face 排行榜。
這次,他們做出了行業首個端側認知模型。
Karpathy 的預言與算力的賬單
算力成本的壓力已經從技術議題變成財務議題,亞馬遜的案例只是縮影。
亞馬遜員工通過內部 AI 工具頻繁調用大模型推理能力,推高了整體算力支出,管理層不得不緊急叫停排行榜機制以遏制用量。
https://www.ft.com/content/b1a62a7f-6df5-4c90-94ce-64ce9c9961b6?syn-25a6b1a6=1
行業正在經歷第一次「Token 大撤退」,部分公司的單日算力消耗已觸及億元量級。
大模型的商業模型正撞上一堵結構性的牆:能力越強、推理鏈越深,單次調用的成本越高。
GPU 成本營收比(GPU Cost / Revenue)是所有 AI 公司的命門指標,模型參數持續膨脹的趨勢只會讓這個指標更難看。
Karpathy 的思路指向了另一條路:他提出需要把模型中的「記憶 / 知識」剝離掉,保留他所說的「認知核心」——
一個被剝離了海量事實、知識,但保留了思考算法、智能魔力、問題解決策略的實體。
他判斷,即便是 10 億參數的規模,也能實現高效的類人思考:
它會像人類一樣思考……如果你問它一個事實性問題,它可能需要查閱——它知道自己不知道,並且會去查。
這段話在技術社區引發廣泛討論。
方向上的共識正在形成,但能將「認知核心」從概念推到可部署產品的團隊,才是真正的變量。
4B 打平千億級,新程 Alpha 做了什麼
把 Karpathy 描述的「認知核心」從概念推到產品的,是明日新程(Nextie)。
這家公司對開源推理模型進行強化學習訓練,將知識與認知解耦——剝離模型中記憶性的知識儲備,強化泛化和抽象思考能力。
產出的模型被命名為新程 Alpha,參數規模 4B,已完成訓練並部署上線,是行業中首個被定義為「認知模型」的產品。
具體到其訓練方法,其實是一個不常見的起點。
明日新程團隊整理了 1800 年至 2020 年、跨越 220 年的人類學術論文,試圖梳理出群體智能的演化脈絡,為技術路線提供參照系。
在這套研究的基礎上對開源推理模型做強化學習,專注於提升泛化和抽象能力。
舉一個直觀的例子:經過訓練的模型能將圍棋選手的決策模式遷移到日常生活場景——Karpathy 所說的「保留思考算法」,在這裡有了具體的技術實現。
效果層面,新程 Alpha 在群體智能任務(辯論、反思、挑戰、投票等環節)中,4B 參數達到了與 GPT-5.4 等大模型等效的輸出質量,算力消耗和推理速度優勢顯著。
更值得關注的是這個模型解鎖的場景空間,有三層遞進的意義。
第一層,多智能體決策質量提升。
在 Harness 決策框架中,使用認知模型的輸出效果優於推理模型。
底層模型從「推理」升級為「認知」,帶來的是多智能體協作系統中決策鏈條整體質量的躍升。
第二層,算力成本量級縮減。
4B 相較於千億參數模型,雲端部署的算力開銷大幅降低。
新程 Alpha 同時支持端側部署——MacBook、具身智能設備均可直接運行,算力成本由此轉化為電力成本。
這對具身智能領域意義尤為突出:用千億參數大模型驅動一個家務機器人,每一次「思考」都在消耗大量 Token,綜合成本可能比請人做家務還貴。
4B 端側部署,從根本上改寫了這筆賬。
第三層,主動式(Proactive)場景解鎖。
當前絕大多數 AI 產品運行在響應式(Reactive)模式下——用戶發指令,模型響應。
Proactive 模式意味著智能體自主決策和執行任務,無需等待命令,商業規模遠超 Reactive,但過去始終被算力成本擋在門外。
新程 Alpha 支持 24 小時不間斷運行,成本可控,讓此前因為太貴而擱置的主動式智能體成為可能。
團隊底牌與賽道卡位
明日新程由微軟小冰創始團隊創立。
這個團隊的標籤是「用小參數贏大參數」——此前訓練的開源模型 rinna(日本小冰)以 3.6B 參數登頂日本 Hugging Face 排行榜第一名,擊敗了 65B 參數的 Llama。
新程 Alpha 用 4B 打平千億級大模型的效果,延續的是同一套技術基因。
明日新程重倉佈局的賽道是——Harness 群體多智能體。
這條賽道正在獲得頭部資本的確認——2026 年 3 月,OpenAI 投資了初創公司 Isara,直接將其估值推至 6.5 億美元,Isara 的研究方向正是多智能體協同與群體智能。
https://www.wsj.com/tech/ai/openai-backs-new-ai-startup-seeking-bot-army-breakthroughs-a0b1fedc
在該領域的智能深度評測(IDI)中,明日新程的綜合表現顯著高於任何單一大模型。
資本驗證了賽道價值,評測數據則標定了明日新程在賽道內的位置。
兩個信號疊加,指向同一個判斷:群體多智能體是 AI 應用層的下一個高價值方向,認知模型是驅動它的關鍵基礎設施。
認知模型改變的不只是參數,更是賬本
GPU 成本營收比(GPU Cost / Revenue)是懸在所有 AI 公司頭上的達摩克利斯之劍。
認知模型提供的解法,核心指向經濟模型的重構——用 4B 達到千億級才能達到的效果,意味著同樣的輸出質量對應一套完全不同的成本結構。
明日新程在採訪中透露,團隊正在訓練泛化能力更強的 8B 認知模型。
如果 4B 已經能在群體智能任務中對標 GPT-5.4,8B 的能力邊界值得期待。
一個更深遠的問題留給整個行業:當端側全天候運行一個認知模型的成本降至可忽略的水平,今天所有基於「用戶發指令、模型響應」的響應式(Reactive)模式設計的 AI 產品,可能都需要重新審視自己的產品形態。
主動式(Proactive)智能體的商業想象空間,遠超當前響應式(Reactive)智能體下的一切。
本文來自微信公眾號“新智元”,作者:ASI啟示錄,36氪經授權發佈。



