AI 巨頭，走入黑暗森林

文 | 象先志

大劉在《三體》中寫過一個後來被無數次引用的意象——黑暗森林。每個文明都是帶槍的獵人，誰先暴露自己，誰先死。森林裡不是沒有人，是每個人都知道亮燈會招來子彈，所以大家都熄燈。

2026年春天，頂級AI實驗室們，走入了這樣的黑暗森林。

4月16日，Anthropic 率先發布 Claude Opus 4.7。同一天，他們做了一個反常的動作——公開承認 Opus 4.7 的性能並不及一個尚未發佈的模型 Mythos，理由是 safety concerns。（安全考量）

4月23 日，OpenAI 在官網掛出 GPT-5.5。同一天，Anthropic 又在官方博客發了一篇叫 “An update on recent Claude Code quality reports” 的事故覆盤報告，承認過去一個多月 Claude Code 確實變笨了——一個放新牌，一個補認錯。但這位“新晉王者”幾乎是在炫耀：我們承認 Claude 暫時變笨——但你別忘了，我們手裡還藏著一把 Mythos 沒出。

4月24 日，“神秘的東方力量” DeepSeek V4 Preview 上線，梁文鋒團隊第一次把模型和華為升騰 950PR 深度綁定做官宣；但所有人都看明白了——真正“滿血”的 V4 Pro Max，要等升騰 950 超節點下半年量產之後才能放出來。

三家公司，三個動作。表面是各自的產品節奏，但拼在一起看，一件事浮出來：

每一家手裡都握著至少一把“槍”——一個比公開版本更強的模型、一個還沒輪到公眾的下一代架構、一片還沒大規模鋪開的芯片超節點。但沒有一家敢先把這把槍舉起來。

因為在這個行業裡，“先亮”的代價從來都不止洩密那麼簡單。先亮，意味著把自己的能力上限親手交給對手做參照系；意味著率先承擔安全審視、監管收緊、輿論壓力的全部火力；意味著把自己變成下一輪所有競對都要瞄準的那個移動靶子。森林裡沒有英雄主義——每一個先開槍的人，都把自己變成了下一個被瞄準的人。

所以獵人們最理性的選擇，是熄燈、屏息、把武器藏在背後。

這就是博弈的最優解。

Anthropic的有恃無恐

Claude 這一邊，在過去的一個月，幾乎上演了最糟糕的一次版本發佈。

早早更新完 Opus 4.7，Anthropic 仍舊霸榜各種榜單，而且手裡還藏著只提供給企業客戶的 Mythos——儼然一副不緊不慢的姿態。

但 Opus 4.7 的這一週期，幾乎是 Claude 用戶體驗最差的一次，“差評如潮”。

3 月初，Anthropic 改了 Claude Code 的默認推理深度，從 high 調到 medium。這個決定的出發點可以理解：high 模式下 UI 經常看起來像卡死了一樣，響應慢得讓付費用戶抓狂。但問題是，他們當時沒有公佈。

3 月底，又上線了一個“效率優化”——如果 Claude Code 會話空閒超過一小時，系統就會清掉舊的 reasoning block。按設計，這是為了省算力。實際跑起來的效果，是每一輪對話之後 Claude 都像失憶，把上下文忘得乾乾淨淨。開發者社區那幾周湧進大量吐槽：“Claude 開始不記得我上一輪讓它幹什麼了。”

直到近期，第三件事發生了——在系統提示里加了一條壓縮 verbosity 的指令。按 Anthropic 後來自己承認的說法，這條指令讓 Claude Code 的編碼質量直接跌了 3%。

三件事疊在一起，才有了 AMD 的一位 senior director 在 GitHub 上寫下的那句話——“Claude has regressed to the point it cannot be trusted to perform complex engineering”（Claude 已經退化到無法再被信任去完成複雜工程類任務）。Axios 4 月 16 日那篇 “Anthropic's AI downgrade stings power users” 把它抬到了主流視野。

然後 Anthropic 才承認，確實有點問題。

DeepSeek

4月7 日，他們悄悄回滾了 reasoning effort 的調整；4 月 10 日修掉了 cache 的 bug；4 月 20 日撤掉了壓縮 verbosity 的系統提示。但真正的事故覆盤報告，等到了 4 月 23 日才發出來——而這恰好是 GPT-5.5 公開發布的當天。

這種帶著一絲“哦，我的工程策略有點 bug，修復就好了”的輕蔑感，和 OpenAI 的重量級發佈只在前後腳之間。很難說這是巧合。

更耐人尋味的是， Opus 4.7 發佈的時候，Anthropic 順帶做了一個反常的動作：公開承認 Opus 4.7 的性能不及一個尚未發佈的模型——Mythos。這很明顯是一種“戰略性退守”——Anthropic 把最強能力留在企業端、不急於推向大眾，因為團隊還沒準備好把 Mythos 放出去。

這個說法可以信。但從商業敘事的角度看，另一半同樣真實：Anthropic 等了六週才公開承認 Claude Code 在退化，等到 OpenAI 要放新牌的那一天才把問題端出來。如果不是同行壓力足夠大，如果不是 Opus 4.7 已經證明了“我們還有後手”，這份聲明可能永遠都不會到來。

在 Claude 這一側，擠牙膏不是指刻意閹割能力，而是：能力的釋放節奏、對問題的披露節奏，都跟著競對的節奏走。

拿出自己最前沿的能力，註定會被當做靶子打。又或者說，在 Anthropic 看來，4.6 對競爭對手造成的壓力都還沒散去——既然如此，更強的牌沒必要現在就打出來。

OpenAI 的故技重施

如果 Anthropic 是“藏著一個 Mythos 不發”，那 OpenAI 這一側的擠牙膏更隱蔽——它把能力的釋放權，留在了自己服務器的負載曲線和一個叫 auto-router 的分檔機制裡。

4月23 日 GPT-5.5 發佈的同一天，Simon Willison（Django 框架共同創始人、AI 圈知名獨立評測者）在自己的博客裡寫了一句審慎的話：“It's not a dramatic departure from what we've had before.”（這不是一次戲劇性的飛躍）。

DeepSeek

他順手補了一條信息很關鍵：GPT-5.5 是自 GPT-4.5 之後 OpenAI 第一次完全重訓的基礎模型；也就是說，過去半年發出去的 5.1、5.2、5.3、5.4，全部只是增量更新。換言之，過去的四次小版本更新，OpenAI 都是收著力氣發佈的——因為他們不清楚競爭對手會放出什麼東西。

“收著勁兒更新”有一個更容易理解的說法：擠牙膏。

但更值得記住的一幕發生在 GPT-5.5 上線幾個小時之後。Codex 用戶在 GitHub 提了 Issue #19241，投訴 Fast mode 一開始真的很快，等更多用戶被放進來之後肉眼可見變慢，而計費還按 Fast 檔結算。措辭很熟悉：“請 OpenAI 調查 GPT-5.5 Fast mode 是否在高負載下被降級。”

這幾乎就是 2025 年 8 月 7 日 GPT-5 首發當天那一幕的精確重演——那一次，Reddit r/ChatGPT 把 “GPT-5 is horrible” 頂到 4600+ upvotes，Sam Altman 第二天在 AMA 上親口承認 “the autoswitcher broke... GPT-5 seemed way dumber”——承認了 router 在幕後替用戶做了降檔這件事。

同一個劇本，八個月後再度上演。

更戲謔的是，在 GPT-5.5 正式發佈的前一天，OpenAI 的 Codex 把內部 staging 環境誤推到了生產環境，被幾個 Pro 用戶截圖截了下來，幾分鐘之內修掉，但洩漏的內容已經四處流傳。當時出現在選擇器裡的，除了 GPT-5.5 本身，還有一個叫 Glacier 的系列（tooltip 寫著 “Intelligence that moves continents”）、一個叫 Heisenberg 的生命科學模型、一個叫 Arcanine 的未知用途模型，以及代號 oai-2.1 等多個版本。

也就是說，就在 OpenAI 把 GPT-5.5 作為“下一代”放出來的同一時間，內部至少跑著 5 到 6 條平行的產品線，每一條都還沒輪到公眾。

OpenAI 自己倒是認了。在 2026 年官方的年度路線圖裡，他們用了一個學術圈討論已久的詞——capability overhang——承認當前大模型的真實能力和用戶實際能用出的效果之間，存在一個巨大的 gap。

熟悉嗎？和 Anthropic 對待 Mythos 的話術幾乎是同一句話。就算 4 月 22 日那次 Codex 洩露真的是誤操作，OpenAI 主動把 capability overhang 這個詞放進路線圖，傳遞的信號已經寫得很清楚——我們手裡還多得很，你們看著辦。

你手裡有遠多於賣給用戶的東西，你才有的擠。GPT-5.5 的 24 小時，把這個前提再一次變成了現場直播。

Deepseek 的耐心等待

DeepSeek 這一邊，“擠”的方式徹底變了——它不是在藏能力，而是在等一個更合適的交付時機。

1.6T MoE、1M 上下文、Pro/Flash 雙規格，定價 3.48 per 1M tokens——是 GPT-5.5 的幾十分之一，是 Opus 4.7 的量級差。海外獨立評測者給出的結論是兩句話：性能貼近但略低於 GPT-5.4 / Gemini 3.1-Pro，價格“把前沿實驗室的經濟學打穿了”。

但放在 DeepSeek 自己的座標系裡，V4 Preview 已經比 V3 那種“便宜到詭異”的價格貴了不止一點。所有人都知道——這不是滿血版。

DeepSeek V4 的完整故事，不以發佈為終點，更不以發佈為起點。

要從 2025 年 R2 那次沒發出來的發佈講起。R2 原定於 2025 年 5 月發佈，但最終被延後到秋冬。整個中國Deepseek 的基礎設施遷向華為的 CANN 生態。對於任何一個實驗室實驗室，這都不可能是一個季度能完成的工程——編譯器、算子、通信庫、推理框架、MoE 路由，全部要重寫。

而 V4 這一次，是 DeepSeek 第一次把升騰正式寫進訓練硬件清單。V4 是混合訓練的第一個版本——升騰首次入場。

但專門為大規模訓練優化的下一代芯片升騰 950DT，按華為路線圖要 2026 年 Q4 才量產。也就是說，V4 訓練能跑起來，是用上一代的 950PR 拼出來的；要讓 V4 Pro Max 這種 1.6T MoE 的滿血版本既能訓得徹底又能大規模推得起來，還要等下一代到位。

真正的工程難點不是“V4 能不能訓出來”——已經訓出來了——而是“V4怎樣在升騰上跑得滿、跑得穩、跑得便宜”。

升騰 950PR 在 2026 年 Q1 量產，FP4 算力 1.56 PFLOPS、片上內存 112GB，紙面規格對標並超過英偉達 H20。但從一顆芯片跑得起，到一整片超節點能穩定服務數百萬 token/秒的推理請求，是兩回事。V4 Pro Max 的滿血版，鎖的就是這個“超節點”——升騰 950 系列的大規模集群版本，2026 年下半年陸續到位。

這構成了一個和前兩家完全不同的策略。Anthropic 和 OpenAI 擠牙膏的邏輯，是我手裡有更強的，先不給你；DeepSeek 擠牙膏的邏輯，是我滿血的那一版，要等一個讓價格再下一個臺階的時刻。

這個差別很重要。

DeepSeek 真正的殺手鐧從來不是“性能最前沿”，而是“在性能夠用的前提下，把 token 價格砍到別人不敢砍的位置”。V4 Preview 在英偉達卡和升騰 950PR 上做了適配，但要做到量產規模的滿血推理，必須等超節點到位。一旦等到那一刻，兩件事會同時發生：一是 V4 Pro Max 的能力可以釋放到頂；二是推理成本、API 定價會再落一階——對一家靠價格打穿市場的公司，後者比前者更致命。

人們真正期待的、在 2025 年初發生過的那個“DeepSeek 時刻”，沒有在這次發佈裡再次上演。而 V4 Preview 的發佈其實是一段預告片，真正的重頭戲，是下半年的“DeepSeek + 華為升騰”時刻。

從這個角度看，梁文鋒團隊現在做的不是被迫的“藏”，而是一次商業上剋制的“選擇”——選擇把最強版本的首發，交到一個它最有話語權的場景裡：國產超節點大規模部署後的第一天。在那之前，先用 V4 Preview 把性價比的敘事再鞏固一輪。

DeepSeek

DeepSeek 揹負的從來不是讓國產大模型在某個榜單上拔到第一的“長板敘事”，而是讓芯片、訓練、推理、定價四條線同時跑通的“系統性敘事”——後者比前者重要得多。

就在前幾天，黃仁勳在 Dwarkesh Patel 的播客上說，如果 DeepSeek 在華為芯片上首發，“那對我們美國來說是個可怕的結果”（“a horrible outcome for our nation”）。

現在英偉達還把控著頂尖算力。但按照黃仁勳自己拋出的那塊“AI 五層蛋糕”——能源、芯片、基礎設施、模型、應用——國產大模型產業在每一層都已經有了能跑通的國產方案，差距正在以肉眼可見的速度縮小。補上芯片這塊最後的拼圖，DeepSeek 的開源大模型故事，才是一個比美國大模型更大的故事：這是一場不用消耗過多成本、讓全球實現智能平權的重要一步。

讓全世界都可以繞過某些被霸權掌控的先進算力，走入高效的智能社會。

尾聲

Anthropic 的“藏”——是主動的。他們有 Mythos，沒發，理由是 safety。

OpenAI 的“藏”——是結構的。他們有 Pro 檔，不常給你，理由是 infrastructure 和價格分層。

DeepSeek 的“藏”——是必要的。它關乎一整套社會智能躍遷的敘事範本。

但從另一個側面來看，這又像極了大劉描繪的黑暗森林：在這片漆黑的智能森林裡，每一個頂尖獵人都不會率先開出自己的那一槍。

暴露意味著毫無保留，意味著沒有底牌，會成為另一個獵人的活靶子。

沒人知道誰會率先打出最致命的一槍。但可以確定的是，今天你用的每一個模型，都不是它真正的樣子。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論