文 | 象先志
大劉在《三體》中寫過一個後來被無數次引用的意象——黑暗森林。每個文明都是帶槍的獵人,誰先暴露自己,誰先死。森林裡不是沒有人,是每個人都知道亮燈會招來子彈,所以大家都熄燈。
2026年春天,頂級AI實驗室們,走入了這樣的黑暗森林。
4月16日,Anthropic 率先發布 Claude Opus 4.7。同一天,他們做了一個反常的動作——公開承認 Opus 4.7 的性能並不及一個尚未發佈的模型 Mythos,理由是 safety concerns。(安全考量)
4月23 日,OpenAI 在官網掛出 GPT-5.5。同一天,Anthropic 又在官方博客發了一篇叫 “An update on recent Claude Code quality reports” 的事故覆盤報告,承認過去一個多月 Claude Code 確實變笨了——一個放新牌,一個補認錯。但這位“新晉王者”幾乎是在炫耀:我們承認 Claude 暫時變笨——但你別忘了,我們手裡還藏著一把 Mythos 沒出。
4月24 日,“神秘的東方力量” DeepSeek V4 Preview 上線,梁文鋒團隊第一次把模型和華為升騰 950PR 深度綁定做官宣;但所有人都看明白了——真正“滿血”的 V4 Pro Max,要等升騰 950 超節點下半年量產之後才能放出來。
三家公司,三個動作。表面是各自的產品節奏,但拼在一起看,一件事浮出來:
每一家手裡都握著至少一把“槍”——一個比公開版本更強的模型、一個還沒輪到公眾的下一代架構、一片還沒大規模鋪開的芯片超節點。但沒有一家敢先把這把槍舉起來。
因為在這個行業裡,“先亮”的代價從來都不止洩密那麼簡單。先亮,意味著把自己的能力上限親手交給對手做參照系;意味著率先承擔安全審視、監管收緊、輿論壓力的全部火力;意味著把自己變成下一輪所有競對都要瞄準的那個移動靶子。森林裡沒有英雄主義——每一個先開槍的人,都把自己變成了下一個被瞄準的人。
所以獵人們最理性的選擇,是熄燈、屏息、把武器藏在背後。
這就是博弈的最優解。
Anthropic的有恃無恐
Claude 這一邊,在過去的一個月,幾乎上演了最糟糕的一次版本發佈。
早早更新完 Opus 4.7,Anthropic 仍舊霸榜各種榜單,而且手裡還藏著只提供給企業客戶的 Mythos——儼然一副不緊不慢的姿態。
但 Opus 4.7 的這一週期,幾乎是 Claude 用戶體驗最差的一次,“差評如潮”。
3 月初,Anthropic 改了 Claude Code 的默認推理深度,從 high 調到 medium。這個決定的出發點可以理解:high 模式下 UI 經常看起來像卡死了一樣,響應慢得讓付費用戶抓狂。但問題是,他們當時沒有公佈。
3 月底,又上線了一個“效率優化”——如果 Claude Code 會話空閒超過一小時,系統就會清掉舊的 reasoning block。按設計,這是為了省算力。實際跑起來的效果,是每一輪對話之後 Claude 都像失憶,把上下文忘得乾乾淨淨。開發者社區那幾周湧進大量吐槽:“Claude 開始不記得我上一輪讓它幹什麼了。”
直到近期,第三件事發生了——在系統提示里加了一條壓縮 verbosity 的指令。按 Anthropic 後來自己承認的說法,這條指令讓 Claude Code 的編碼質量直接跌了 3%。
三件事疊在一起,才有了 AMD 的一位 senior director 在 GitHub 上寫下的那句話——“Claude has regressed to the point it cannot be trusted to perform complex engineering”(Claude 已經退化到無法再被信任去完成複雜工程類任務)。Axios 4 月 16 日那篇 “Anthropic's AI downgrade stings power users” 把它抬到了主流視野。
然後 Anthropic 才承認,確實有點問題。

4月7 日,他們悄悄回滾了 reasoning effort 的調整;4 月 10 日修掉了 cache 的 bug;4 月 20 日撤掉了壓縮 verbosity 的系統提示。但真正的事故覆盤報告,等到了 4 月 23 日才發出來——而這恰好是 GPT-5.5 公開發布的當天。
這種帶著一絲“哦,我的工程策略有點 bug,修復就好了”的輕蔑感,和 OpenAI 的重量級發佈只在前後腳之間。很難說這是巧合。
更耐人尋味的是, Opus 4.7 發佈的時候,Anthropic 順帶做了一個反常的動作:公開承認 Opus 4.7 的性能不及一個尚未發佈的模型——Mythos。這很明顯是一種“戰略性退守”——Anthropic 把最強能力留在企業端、不急於推向大眾,因為團隊還沒準備好把 Mythos 放出去。
這個說法可以信。但從商業敘事的角度看,另一半同樣真實:Anthropic 等了六週才公開承認 Claude Code 在退化,等到 OpenAI 要放新牌的那一天才把問題端出來。如果不是同行壓力足夠大,如果不是 Opus 4.7 已經證明了“我們還有後手”,這份聲明可能永遠都不會到來。
在 Claude 這一側,擠牙膏不是指刻意閹割能力,而是:能力的釋放節奏、對問題的披露節奏,都跟著競對的節奏走。
拿出自己最前沿的能力,註定會被當做靶子打。又或者說,在 Anthropic 看來,4.6 對競爭對手造成的壓力都還沒散去——既然如此,更強的牌沒必要現在就打出來。
OpenAI 的故技重施
如果 Anthropic 是“藏著一個 Mythos 不發”,那 OpenAI 這一側的擠牙膏更隱蔽——它把能力的釋放權,留在了自己服務器的負載曲線和一個叫 auto-router 的分檔機制裡。
4月23 日 GPT-5.5 發佈的同一天,Simon Willison(Django 框架共同創始人、AI 圈知名獨立評測者)在自己的博客裡寫了一句審慎的話:“It's not a dramatic departure from what we've had before.”(這不是一次戲劇性的飛躍)。

他順手補了一條信息很關鍵:GPT-5.5 是自 GPT-4.5 之後 OpenAI 第一次完全重訓的基礎模型;也就是說,過去半年發出去的 5.1、5.2、5.3、5.4,全部只是增量更新。換言之,過去的四次小版本更新,OpenAI 都是收著力氣發佈的——因為他們不清楚競爭對手會放出什麼東西。
“收著勁兒更新”有一個更容易理解的說法:擠牙膏。
但更值得記住的一幕發生在 GPT-5.5 上線幾個小時之後。Codex 用戶在 GitHub 提了 Issue #19241,投訴 Fast mode 一開始真的很快,等更多用戶被放進來之後肉眼可見變慢,而計費還按 Fast 檔結算。措辭很熟悉:“請 OpenAI 調查 GPT-5.5 Fast mode 是否在高負載下被降級。”
這幾乎就是 2025 年 8 月 7 日 GPT-5 首發當天那一幕的精確重演——那一次,Reddit r/ChatGPT 把 “GPT-5 is horrible” 頂到 4600+ upvotes,Sam Altman 第二天在 AMA 上親口承認 “the autoswitcher broke... GPT-5 seemed way dumber”——承認了 router 在幕後替用戶做了降檔這件事。
同一個劇本,八個月後再度上演。
更戲謔的是,在 GPT-5.5 正式發佈的前一天,OpenAI 的 Codex 把內部 staging 環境誤推到了生產環境,被幾個 Pro 用戶截圖截了下來,幾分鐘之內修掉,但洩漏的內容已經四處流傳。當時出現在選擇器裡的,除了 GPT-5.5 本身,還有一個叫 Glacier 的系列(tooltip 寫著 “Intelligence that moves continents”)、一個叫 Heisenberg 的生命科學模型、一個叫 Arcanine 的未知用途模型,以及代號 oai-2.1 等多個版本。
也就是說,就在 OpenAI 把 GPT-5.5 作為“下一代”放出來的同一時間,內部至少跑著 5 到 6 條平行的產品線,每一條都還沒輪到公眾。
OpenAI 自己倒是認了。在 2026 年官方的年度路線圖裡,他們用了一個學術圈討論已久的詞——capability overhang——承認當前大模型的真實能力和用戶實際能用出的效果之間,存在一個巨大的 gap。
熟悉嗎?和 Anthropic 對待 Mythos 的話術幾乎是同一句話。就算 4 月 22 日那次 Codex 洩露真的是誤操作,OpenAI 主動把 capability overhang 這個詞放進路線圖,傳遞的信號已經寫得很清楚——我們手裡還多得很,你們看著辦。
你手裡有遠多於賣給用戶的東西,你才有的擠。GPT-5.5 的 24 小時,把這個前提再一次變成了現場直播。
Deepseek 的耐心等待
DeepSeek 這一邊,“擠”的方式徹底變了——它不是在藏能力,而是在等一個更合適的交付時機。
1.6T MoE、1M 上下文、Pro/Flash 雙規格,定價 3.48 per 1M tokens——是 GPT-5.5 的幾十分之一,是 Opus 4.7 的量級差。海外獨立評測者給出的結論是兩句話:性能貼近但略低於 GPT-5.4 / Gemini 3.1-Pro,價格“把前沿實驗室的經濟學打穿了”。
但放在 DeepSeek 自己的座標系裡,V4 Preview 已經比 V3 那種“便宜到詭異”的價格貴了不止一點。所有人都知道——這不是滿血版。
DeepSeek V4 的完整故事,不以發佈為終點,更不以發佈為起點。
要從 2025 年 R2 那次沒發出來的發佈講起。R2 原定於 2025 年 5 月發佈,但最終被延後到秋冬。整個中國Deepseek 的基礎設施遷向華為的 CANN 生態。對於任何一個實驗室實驗室,這都不可能是一個季度能完成的工程——編譯器、算子、通信庫、推理框架、MoE 路由,全部要重寫。
而 V4 這一次,是 DeepSeek 第一次把升騰正式寫進訓練硬件清單。V4 是混合訓練的第一個版本——升騰首次入場。
但專門為大規模訓練優化的下一代芯片升騰 950DT,按華為路線圖要 2026 年 Q4 才量產。也就是說,V4 訓練能跑起來,是用上一代的 950PR 拼出來的;要讓 V4 Pro Max 這種 1.6T MoE 的滿血版本既能訓得徹底又能大規模推得起來,還要等下一代到位。
真正的工程難點不是“V4 能不能訓出來”——已經訓出來了——而是“V4怎樣在升騰上跑得滿、跑得穩、跑得便宜”。
升騰 950PR 在 2026 年 Q1 量產,FP4 算力 1.56 PFLOPS、片上內存 112GB,紙面規格對標並超過英偉達 H20。但從一顆芯片跑得起,到一整片超節點能穩定服務數百萬 token/秒的推理請求,是兩回事。V4 Pro Max 的滿血版,鎖的就是這個“超節點”——升騰 950 系列的大規模集群版本,2026 年下半年陸續到位。
這構成了一個和前兩家完全不同的策略。Anthropic 和 OpenAI 擠牙膏的邏輯,是我手裡有更強的,先不給你;DeepSeek 擠牙膏的邏輯,是我滿血的那一版,要等一個讓價格再下一個臺階的時刻。
這個差別很重要。
DeepSeek 真正的殺手鐧從來不是“性能最前沿”,而是“在性能夠用的前提下,把 token 價格砍到別人不敢砍的位置”。V4 Preview 在英偉達卡和升騰 950PR 上做了適配,但要做到量產規模的滿血推理,必須等超節點到位。一旦等到那一刻,兩件事會同時發生:一是 V4 Pro Max 的能力可以釋放到頂;二是推理成本、API 定價會再落一階——對一家靠價格打穿市場的公司,後者比前者更致命。
人們真正期待的、在 2025 年初發生過的那個“DeepSeek 時刻”,沒有在這次發佈裡再次上演。而 V4 Preview 的發佈其實是一段預告片,真正的重頭戲,是下半年的“DeepSeek + 華為升騰”時刻。
從這個角度看,梁文鋒團隊現在做的不是被迫的“藏”,而是一次商業上剋制的“選擇”——選擇把最強版本的首發,交到一個它最有話語權的場景裡:國產超節點大規模部署後的第一天。在那之前,先用 V4 Preview 把性價比的敘事再鞏固一輪。

DeepSeek 揹負的從來不是讓國產大模型在某個榜單上拔到第一的“長板敘事”,而是讓芯片、訓練、推理、定價四條線同時跑通的“系統性敘事”——後者比前者重要得多。
就在前幾天,黃仁勳在 Dwarkesh Patel 的播客上說,如果 DeepSeek 在華為芯片上首發,“那對我們美國來說是個可怕的結果”(“a horrible outcome for our nation”)。
現在英偉達還把控著頂尖算力。但按照黃仁勳自己拋出的那塊“AI 五層蛋糕”——能源、芯片、基礎設施、模型、應用——國產大模型產業在每一層都已經有了能跑通的國產方案,差距正在以肉眼可見的速度縮小。補上芯片這塊最後的拼圖,DeepSeek 的開源大模型故事,才是一個比美國大模型更大的故事:這是一場不用消耗過多成本、讓全球實現智能平權的重要一步。
讓全世界都可以繞過某些被霸權掌控的先進算力,走入高效的智能社會。
尾聲
Anthropic 的“藏”——是主動的。他們有 Mythos,沒發,理由是 safety。
OpenAI 的“藏”——是結構的。他們有 Pro 檔,不常給你,理由是 infrastructure 和價格分層。
DeepSeek 的“藏”——是必要的。它關乎一整套社會智能躍遷的敘事範本。
但從另一個側面來看,這又像極了大劉描繪的黑暗森林:在這片漆黑的智能森林裡,每一個頂尖獵人都不會率先開出自己的那一槍。
暴露意味著毫無保留,意味著沒有底牌,會成為另一個獵人的活靶子。
沒人知道誰會率先打出最致命的一槍。但可以確定的是,今天你用的每一個模型,都不是它真正的樣子。





