GPT5.4回一個hi要花80刀，OpenAI應該看看谷歌這篇新論文了

在過去的幾年裡，更完善高效的基建（infra）一直在壓低人工智能的token成本，各家都在壓低價格這個賽道上前進。

但最近OpenClaw等具有強大 Agent 能力的現象級應用爆火，API （應用程序接口）賬單卻迎來了逆勢飆升。除了 Agent 運作本身帶來的海量上下文堆疊外，還有一個隱藏在背後的吞金獸，即越來越長、甚至走向失控的「思維鏈」（Chain-of-Thought, CoT）。

自從 OpenAI 的 o1 模型掀起了測試時計算（Test-time compute）的革命以來，多想一會兒表現更好似乎成了通往通用人工智能的萬能鑰匙。到如今，當我們調用旗艦級推理模型時，它們在後臺的思考時間確實呈指數級增長，動輒吐出成千上萬字的內心獨白。OpenAI在2025年1月的財報電話會上透露，o1系列的平均單次請求token消耗是GPT-4o的2.7倍，而在某些編程任務上這個倍數可以衝到五倍甚至更高。

而且這個趨勢完全沒有停下來的傾向。比如新發布的GPT 5.4 Pro花了5分18s，80美元，來回答一個Hi的招呼。

這麼長的思維鏈，真的都有用嗎？它什麼時候才有用？我們究竟怎樣才能讓模型思考得少而精？這個問題從o1誕生之初就困擾著研究者，現象解讀和解決方法一直都有，但它們都沒有完全解決如何去選擇有效的思考token的問題。到目前為止，業界的主流方法依然是路由，即模型自行判斷是否需要思考。

2026年2月，來自Google的一篇論文《Think Deep, Not Just Long》給出了一種更本質的解決方法。

簡單來講，就是看模型思考有沒有用，就要看它想得深不深。

01 更多不一定更好

Chain-of-Thought的到來其實比GPT還早。2022年，Google的研究者們發表的兩篇論文幾乎同時確立了CoT作為推理範式的地位。第一篇《Chain-of-Thought Prompting》展示了通過在few-shot示例中加入推理鏈，可以讓大模型在算術、常識、符號推理等任務上實現跨越式提升。在某些設置下，準確率能從接近零跳到60%以上。第二篇《Zero-shot CoT》則提出了知名的「Let's think step by step」。把它加在Prompt後面，就能激活模型的多步推理能力。

這兩個發現迅速成為行業共識，幾乎所有需要複雜推理的應用都開始默認啟用CoT。研究者們自然地認為，既然CoT有效，那麼更長的CoT應該更有效。

2023年到2024年上半年，大量工作圍繞如何讓模型生成更長、更精細的推理鏈展開。有的通過提示工程誘導更詳細的分解，有的通過強化學習獎勵更長的CoT流，有的則在訓練時用大模型生成的長推理鏈蒸餾小模型。這種對長度的追求在o1發佈時達到了巔峰，它引導的test-time compute革命，核心就是在推理時生成更長的內部思考。

發現問題

但在距離o1還有半年的2024年夏天，來自不同機構的研究者就開始質疑這些思考的有效性了。

比如，斯坦福的一個團隊在分析o1和Claude的推理行為時注意到，對於簡單的小學算術題，這些模型往往會生成數百甚至上千tokens的推理文本，但其中大部分是重複驗算、自我質疑、多種解法嘗試，而人類解答這些題只需要兩三步口算。

當他們手動剪短這些冗長推理時，答案的正確率並沒有下降，甚至有時還會輕微上升。這說明，模型可能並不真正需要那麼多思考，它只是被後訓練的獎勵驅使著不斷生成。

2025年5月，一篇題為《When More is Less》的論文為這個現象提供了更精確的刻畫。用控制實驗構造了不同長度的推理鏈，並在多個難度梯度的任務上繪製出長度-準確率曲線。他們發現，思維鏈的長度與最終結果的準確率之間其實是一個倒U型曲線。

在不超過U高點的區間內增加思考步驟確實有幫助，但超過這個區間後，準確率開始單調下降。而且這個最優長度會隨任務難度和模型能力變化。對於更難的問題，最優長度向右移；但對於能力更強的模型，最優長度反而向左移，似乎更強的模型更懂得點到為止。

論文作者將這個現象稱為simplicity bias。當模型已經掌握瞭解題的本質，繼續生成只是在累積噪聲和干擾。一旦超過某個臨界點，模型就會陷入一種名為過度思考（Overthinking）的泥潭。在這種反向擴展（Inverse scaling）的區間裡，你花真金白銀買來的多餘 Token，不僅沒有增加智能，反而降低了正確率。

解剖COT

那麼，這些動輒幾萬字的超長 Token，到底都花在了哪裡？

長推理鏈的形成主要有三種模式，它們都會遇到Overthinking的問題。

第一種是線性展開。模型一步步推進,每一步都生成新的中間結果,就類似於打草稿。這是最經典的CoT形態。這裡的Overthinking問題，主要出在模型往往不知道何時該停筆。已經算出答案了還在繼續驗算,或者用三種方法重複解同一道題。

第二種是反思循環。模型生成初步答案後會觸發自我質疑機制,不斷生成自我糾正文本。這在複雜問題上確實有價值,但在簡單問題上也反思，就Overthinking了。

第三種是多路徑採樣。為了提升魯棒性,系統會讓模型生成十幾個甚至幾十個不同的推理軌跡,最後通過投票選出最一致的答案。這種方法在解決特別複雜的問題時確實有效，但代價是成本呈幾何級數暴漲。而且這些候選推理軌跡裡有相當一部分都很不靠譜，無法有效剔除它們就造成了Overthinking。

《When More is Less》的作者在分析倒U型曲線的右半段時發現,準確率下降的樣本中,90%以上都包含大量的重複驗證和無效反思。這意味著,Overthinking的本質是想重複了。模型在已經掌握答案的情況下,被訓練機制驅使著不斷生成變體和確認,而這些冗餘正是拖累準確率的元兇。

理解了這三種機制及其失控模式,才能有針對性地設計控制策略。

控制長度的嘗試

到2025年中，學術界和工業界對overthinking已經形成了共識。問題開始從「是否存在overthinking」轉移到「如何精確識別和控制它」。

最直接的辦法就是設置硬性限制。比如《Token-Budget-Aware LLM Reasoning》這樣的方法會在提示詞裡明確告訴模型「你只有這麼多字可以用」，迫使它精簡表達。但這種簡單粗暴的方式有個致命問題，難題解不出來了。

於是更好的解決方法是讓系統動態判斷何時該停止。《REFRAIN: Reasoning Efficiency via Fine-grained Reflection and Adaptive Inference》提出的方法是，在推理過程中實時監測冗餘信號。當模型開始重複驗證、打轉反思或者陷入自我懷疑的循環時，系統就會果斷喊停。這種停止策略可以在不改動模型本身的情況下，把token消耗削減20%到55%，同時還能維持甚至提升準確率。

另一條思路是路由。DynaThink和DAST這樣的框架會給每個問題做個快速評估，如果是2+3等於幾這種送分題，直接輸出答案就行；如果是複雜的奧數題，再啟動完整的推理鏈條和多路徑採樣。但當年GPT 5用上路由之後瘋狂誤判難度的災難表現，正說明這種方法也並不完美。

對於依賴多樣採樣和投票的高算力模式，研究者們發明了早停機制。《Early-Stopping Self-Consistency》(ESC) 會在採樣過程中持續監測，一旦多個答案已經形成穩定共識，就沒必要繼續浪費算力生成更多樣本了。在GSM8K這樣的數學基準上，這能把採樣次數砍掉80%。

更激進的方法是從源頭改造模型本身。比如有一派研究者把希望寄託在後訓練上，比如在《Let's Verify Step by Step》論文中，他們希望用過程獎勵模型PRM來解決一切問題。一旦模型被訓練的會按照最優解方法給出答案，那自然不會寫一堆廢話。或者用某種精選出來的短小但正確的方法微調模型，讓它輸出更近似。但PRM的設計或者蒸餾微調，到現在依然是非常難控制的過程。

雖然方法很多，但以上所有這些方法都面臨一個共同的困境，即它們都沒有特別可靠的信號來判斷「何時繼續思考有價值、何時只是在堆砌無用文本」。

當前的解決方案大多依賴表面特徵，比如重複模式、置信度變化、一致性收斂、歷史統計。這些都是間接指標，多少有點隔岸觀火。

那麼，什麼才是區分有效思考和無效冗餘的本質指標？

02 尋找有用的思考

谷歌這篇論文給出方法是，想要最直觀的找到有效思考的證據，那就直接把探針插進Transformer架構的深處去，觀察它在生成每個詞時到底有沒有在真正動腦子。

當大模型生成一個詞（Token）時，這個信號要在它體內經過幾十甚至上百層（Layers）神經網絡的層層傳遞與計算。這篇論文的研究人員發現了生成不同的詞，在模型內部經歷的掙扎程度是完全不一樣的。

對於一些簡單的語法詞、套話，或者模型已經爛熟於心的常識，比如and、is、或者數學公式中的=，它的預測概率在 Transformer 的極淺層就已經鎖定。後續幾十層的龐大算力，對這個詞來說僅僅是走個過場，根本沒有發生實質性的計算修改。

但對於那些真正需要推理的關鍵tokens，比如算式中的數字、邏輯關係詞、或者答案本身，模型的預測會一直修正到很深的層才收斂。

研究人員用數學散度測量中間層與最終輸出之間的分佈差異，提出了「深度思考率」（DTR）指標。它的定義是在一段文本中，有多少比例的token是直到網絡深處才停止搖擺的？

如果大部分token都需要深層計算才能敲定，DTR就高；如果都是淺層就能搞定的套話，DTR就低。

這個指標也可以解釋了前面很多基礎性的困惑。

為什麼長度與準確率負相關？ 因為冗長推理鏈中充斥著"let me reconsider..."、"wait, maybe..."這類淺層套話，它們拉長序列但不產生實質思考。

為什麼短鏈也能保持高準確率？ 因為這些鏈高度濃縮，幾乎每個token都需要深層計算，DTR接近上限。

論文給了個典型的例子。回答同一個幾何題，錯誤樣本用了27724個tokens，DTR只有13.9%；正確樣本只用3725個tokens，DTR達到19.0%。前者90%都是廢話，後者句句是乾貨。

為了證明真的找準了標準，他們在2024和2025的AIME數學競賽、2025年HMMT、以及研究生水平的GPQA科學問答中，測試了GPT-OSS、DeepSeek-R1、Qwen3等多個推理模型家族。結果DTR與準確率完全正相關。

至此，我們可以確定，DTR 確實為我們提供了一個基於模型內部動力學機制、而非表面字數的思考質量標尺。

基於DTR，論文還提出了Think@n方法，專門優化最燒錢的多重採樣模式。傳統做法是讓模型生成幾十個完整推理鏈再投票，Think@n只讓每個線程先吐出50個詞，立刻計算DTR。那些DTR極低、明顯在背套話的線程被掐斷，算力只留給開頭就展現強深層計算的高潛力候選。實驗顯示，這能用一半token達到或超過傳統方法的性能。

然而，這篇論文依然留下了一個巨大的遺憾。它僅僅停留在了一個裁判的角色，在測試時階段對已經生成的候選者進行截斷。

但未來路徑其實是很明顯的，我們完全可以將 DTR 轉化為強化學習（RL）階段的獎勵信號。如果我們在未來的模型對齊階段，不再僅僅獎勵模型得出了正確答案，而是將高 DTR 濃度作為獎勵函數之一，我們就能從基因層面上改變模型的行為模式。這將逼迫模型學會把龐大的計算量壓縮到極其精煉的高質量輸出中。

這才是從更長的思考到更深的思考本質轉變。不再用token數量衡量智能，而是用計算密度。

03 何為最高效的思考？

DTR確實提供了一個很好的標準去觀察模型是否在做更有意義的思考，從根本上解決了Overthinking識別的問題。

但它並沒有回答，為什麼這些想的更深的思考，效果更好。

最近卡耐基梅隆和NYU的一篇論文《從熵到表觀複雜性：為計算受限的智能體重塑信息論》，為我們提供了一個信息論上的線索。

傳統信息理論關注的核心是隨機信息，也就是熵（entropy）。香農告訴我們，一段文本的信息量取決於它的不可預測性。熵（entropy）越高，信息越充足。

然而這根本解釋不AlphaGo這樣深度學習的自博弈模型。你給它輸入的內容只是遊戲規則，熵很低，但通過計算（推理過程），模型則能掌握非常多樣的輸出。

論文認為，關鍵在於所有的智能體，其算力都是有限的。我們不可能無窮無盡的從熵中學習，因此對這樣的系統而言，數據的價值不在於它的隨機性（熵），而在於它包含的可學習的結構複雜度。

對於算力受限的觀察者（比如人類棋手或AI模型）來說，暴力窮舉整個博弈樹是不現實的，所以必須提取更高階的抽象規律。這些規律的描述長度，遠遠超過了遊戲規則本身。

這就是COT有用的原因。

他們把這個結構複雜度，定義成表觀複雜性（Epiplexity）。

一串隨機生成的API密鑰可能有很高的熵，但Epiplexity接近於零，因為模型從中學不到任何可遷移的東西。相反，一段算法代碼的熵可能不高，但Epiplexity很高，因為理解它需要模型構建複雜的內部表徵。

這就解釋了為什麼高DTR的推理更有效，因為它們在產生更多的Epiplexity。

當模型進行深層推理時，它不是在簡單地檢索記憶或應用表面規則，而是在實時構建新的認知結構。

傳統理論會說這不可能，因為確定性變換不能增加信息。但Epiplexity告訴我們，這些策略不是憑空出現的，而是計算過程本身創造的結構。

這篇論文把推理過程重新定義為結構信息的生成器。

傳統觀點認為，推理是在搜索解空間。但Epiplexity視角告訴我們，好的推理不僅僅是搜索，更是在動態改變解空間的表徵方式。就像數學家不是在暴力枚舉定理，而是在發明新的數學對象、新的證明技巧，讓原本複雜的問題變得簡單。

這些步驟的共同特點是，它們都在為問題空間賦予額外的結構。真正有價值的reasoning token，應該是那些迫使模型構建新的內部結構、發現新的模式、提煉更抽象規律的token。它們的特徵，就是生成時需要動用深層網絡的全部計算能力（高DTR），因為淺層的模式匹配已經不夠用了。

而且，從中我們也可以改變對智能的認知。即它不是關於處理多少信息，而是關於創造多少結構。AlphaZero通過自博弈創造圍棋策略，人類科學家通過實驗創造物理理論，語言模型通過深層推理創造問題的結構化表徵，它們的本質是一樣的，都是計算受限的智能體在試圖提取世界的可壓縮規律。

如果把這場從CoT到overthinking再到深度思考的演變放在更大的歷史背景下，它其實是AI系統從能力驅動向資源理性轉型的一個縮影。早期的深度學習革命解決的是能不能的問題——能不能識別圖像、能不能生成文本、能不能下贏圍棋。Test-time compute革命推動的是"能不能做更難的任務"——能不能證明數學定理、能不能寫出無bug的代碼、能不能規劃複雜項目。

但到了當下，當這些能力逐漸成熟後，邊際問題變成了「怎樣做最經濟」。如何用最少的計算達到相同質量，如何根據任務難度動態分配資源，如何避免在無用的方向上浪費計算。

Overthinking問題的凸顯，正是這個轉型期的必然產物。

從這個角度看，DTR和epiplexity不僅是測量工具，更是一種新的設計哲學。它們告訴我們，思考的價值不在於生成了多少文本，而在於文本背後調用了多少結構性計算，以及這些計算能在多大程度上遷移到新任務。

這才是從Think Long到Think Deep的真正飛躍，也是一個在token越來越緊張的世界中，解決算力瓶頸的有效方式。

本文來自微信公眾號“騰訊科技”，作者：博陽，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論