GPT5.4回一個hi要花80刀,OpenAI應該看看谷歌這篇新論文了

在過去的幾年裡,更完善高效的基建(infra)一直在壓低人工智能的token成本,各家都在壓低價格這個賽道上前進。

但最近OpenClaw等具有強大 Agent 能力的現象級應用爆火,API (應用程序接口)賬單卻迎來了逆勢飆升。除了 Agent 運作本身帶來的海量上下文堆疊外,還有一個隱藏在背後的吞金獸,即越來越長、甚至走向失控的「思維鏈」(Chain-of-Thought, CoT)。

自從 OpenAI 的 o1 模型掀起了測試時計算(Test-time compute)的革命以來,多想一會兒表現更好似乎成了通往通用人工智能的萬能鑰匙。到如今,當我們調用旗艦級推理模型時,它們在後臺的思考時間確實呈指數級增長,動輒吐出成千上萬字的內心獨白。OpenAI在2025年1月的財報電話會上透露,o1系列的平均單次請求token消耗是GPT-4o的2.7倍,而在某些編程任務上這個倍數可以衝到五倍甚至更高。

而且這個趨勢完全沒有停下來的傾向。比如新發布的GPT 5.4 Pro花了5分18s,80美元,來回答一個Hi的招呼。

這麼長的思維鏈,真的都有用嗎?它什麼時候才有用?我們究竟怎樣才能讓模型思考得少而精?這個問題從o1誕生之初就困擾著研究者,現象解讀和解決方法一直都有,但它們都沒有完全解決如何去選擇有效的思考token的問題。到目前為止,業界的主流方法依然是路由,即模型自行判斷是否需要思考。

2026年2月,來自Google的一篇論文《Think Deep, Not Just Long》給出了一種更本質的解決方法。

簡單來講,就是看模型思考有沒有用,就要看它想得深不深。

01 更多不一定更好

Chain-of-Thought的到來其實比GPT還早。2022年,Google的研究者們發表的兩篇論文幾乎同時確立了CoT作為推理範式的地位。第一篇《Chain-of-Thought Prompting》展示了通過在few-shot示例中加入推理鏈,可以讓大模型在算術、常識、符號推理等任務上實現跨越式提升。在某些設置下,準確率能從接近零跳到60%以上。第二篇《Zero-shot CoT》則提出了知名的「Let's think step by step」。把它加在Prompt後面,就能激活模型的多步推理能力。

這兩個發現迅速成為行業共識,幾乎所有需要複雜推理的應用都開始默認啟用CoT。研究者們自然地認為,既然CoT有效,那麼更長的CoT應該更有效。

2023年到2024年上半年,大量工作圍繞如何讓模型生成更長、更精細的推理鏈展開。有的通過提示工程誘導更詳細的分解,有的通過強化學習獎勵更長的CoT流,有的則在訓練時用大模型生成的長推理鏈蒸餾小模型。這種對長度的追求在o1發佈時達到了巔峰,它引導的test-time compute革命,核心就是在推理時生成更長的內部思考。

發現問題

但在距離o1還有半年的2024年夏天,來自不同機構的研究者就開始質疑這些思考的有效性了。

比如,斯坦福的一個團隊在分析o1和Claude的推理行為時注意到,對於簡單的小學算術題,這些模型往往會生成數百甚至上千tokens的推理文本,但其中大部分是重複驗算、自我質疑、多種解法嘗試,而人類解答這些題只需要兩三步口算。

當他們手動剪短這些冗長推理時,答案的正確率並沒有下降,甚至有時還會輕微上升。這說明,模型可能並不真正需要那麼多思考,它只是被後訓練的獎勵驅使著不斷生成。 

2025年5月,一篇題為《When More is Less》的論文為這個現象提供了更精確的刻畫。用控制實驗構造了不同長度的推理鏈,並在多個難度梯度的任務上繪製出長度-準確率曲線。他們發現,思維鏈的長度與最終結果的準確率之間其實是一個倒U型曲線。

在不超過U高點的區間內增加思考步驟確實有幫助,但超過這個區間後,準確率開始單調下降。而且這個最優長度會隨任務難度和模型能力變化。對於更難的問題,最優長度向右移;但對於能力更強的模型,最優長度反而向左移,似乎更強的模型更懂得點到為止。

論文作者將這個現象稱為simplicity bias。當模型已經掌握瞭解題的本質,繼續生成只是在累積噪聲和干擾。一旦超過某個臨界點,模型就會陷入一種名為過度思考(Overthinking)的泥潭。在這種反向擴展(Inverse scaling)的區間裡,你花真金白銀買來的多餘 Token,不僅沒有增加智能,反而降低了正確率。

解剖COT 

那麼,這些動輒幾萬字的超長 Token,到底都花在了哪裡?

長推理鏈的形成主要有三種模式,它們都會遇到Overthinking的問題。

第一種是線性展開。模型一步步推進,每一步都生成新的中間結果,就類似於打草稿。這是最經典的CoT形態。這裡的Overthinking問題,主要出在模型往往不知道何時該停筆。已經算出答案了還在繼續驗算,或者用三種方法重複解同一道題。

第二種是反思循環。模型生成初步答案後會觸發自我質疑機制,不斷生成自我糾正文本。這在複雜問題上確實有價值,但在簡單問題上也反思,就Overthinking了。

第三種是多路徑採樣。為了提升魯棒性,系統會讓模型生成十幾個甚至幾十個不同的推理軌跡,最後通過投票選出最一致的答案。這種方法在解決特別複雜的問題時確實有效,但代價是成本呈幾何級數暴漲。而且這些候選推理軌跡裡有相當一部分都很不靠譜,無法有效剔除它們就造成了Overthinking。

《When More is Less》的作者在分析倒U型曲線的右半段時發現,準確率下降的樣本中,90%以上都包含大量的重複驗證和無效反思。這意味著,Overthinking的本質是想重複了。模型在已經掌握答案的情況下,被訓練機制驅使著不斷生成變體和確認,而這些冗餘正是拖累準確率的元兇。

理解了這三種機制及其失控模式,才能有針對性地設計控制策略。

控制長度的嘗試

到2025年中,學術界和工業界對overthinking已經形成了共識。問題開始從「是否存在overthinking」轉移到「如何精確識別和控制它」。

最直接的辦法就是設置硬性限制。比如《Token-Budget-Aware LLM Reasoning》這樣的方法會在提示詞裡明確告訴模型「你只有這麼多字可以用」,迫使它精簡表達。但這種簡單粗暴的方式有個致命問題,難題解不出來了。

於是更好的解決方法是讓系統動態判斷何時該停止。《REFRAIN: Reasoning Efficiency via Fine-grained Reflection and Adaptive Inference》提出的方法是,在推理過程中實時監測冗餘信號。當模型開始重複驗證、打轉反思或者陷入自我懷疑的循環時,系統就會果斷喊停。這種停止策略可以在不改動模型本身的情況下,把token消耗削減20%到55%,同時還能維持甚至提升準確率。

另一條思路是路由。DynaThink和DAST這樣的框架會給每個問題做個快速評估,如果是2+3等於幾這種送分題,直接輸出答案就行;如果是複雜的奧數題,再啟動完整的推理鏈條和多路徑採樣。但當年GPT 5用上路由之後瘋狂誤判難度的災難表現,正說明這種方法也並不完美。

對於依賴多樣採樣和投票的高算力模式,研究者們發明了早停機制。《Early-Stopping Self-Consistency》(ESC) 會在採樣過程中持續監測,一旦多個答案已經形成穩定共識,就沒必要繼續浪費算力生成更多樣本了。在GSM8K這樣的數學基準上,這能把採樣次數砍掉80%。

更激進的方法是從源頭改造模型本身。比如有一派研究者把希望寄託在後訓練上,比如在《Let's Verify Step by Step》論文中,他們希望用過程獎勵模型PRM來解決一切問題。一旦模型被訓練的會按照最優解方法給出答案,那自然不會寫一堆廢話。或者用某種精選出來的短小但正確的方法微調模型,讓它輸出更近似。但PRM的設計或者蒸餾微調,到現在依然是非常難控制的過程。

雖然方法很多,但以上所有這些方法都面臨一個共同的困境,即它們都沒有特別可靠的信號來判斷「何時繼續思考有價值、何時只是在堆砌無用文本」。

當前的解決方案大多依賴表面特徵,比如重複模式、置信度變化、一致性收斂、歷史統計。這些都是間接指標,多少有點隔岸觀火。

那麼,什麼才是區分有效思考和無效冗餘的本質指標?

02 尋找有用的思考 

谷歌這篇論文給出方法是,想要最直觀的找到有效思考的證據,那就直接把探針插進Transformer架構的深處去,觀察它在生成每個詞時到底有沒有在真正動腦子。 

當大模型生成一個詞(Token)時,這個信號要在它體內經過幾十甚至上百層(Layers)神經網絡的層層傳遞與計算。這篇論文的研究人員發現了生成不同的詞,在模型內部經歷的掙扎程度是完全不一樣的。

對於一些簡單的語法詞、套話,或者模型已經爛熟於心的常識,比如and、is、或者數學公式中的=,它的預測概率在 Transformer 的極淺層就已經鎖定。後續幾十層的龐大算力,對這個詞來說僅僅是走個過場,根本沒有發生實質性的計算修改。

但對於那些真正需要推理的關鍵tokens,比如算式中的數字、邏輯關係詞、或者答案本身,模型的預測會一直修正到很深的層才收斂。

研究人員用數學散度測量中間層與最終輸出之間的分佈差異,提出了「深度思考率」(DTR)指標。它的定義是在一段文本中,有多少比例的token是直到網絡深處才停止搖擺的?

如果大部分token都需要深層計算才能敲定,DTR就高;如果都是淺層就能搞定的套話,DTR就低。

這個指標也可以解釋了前面很多基礎性的困惑。

為什麼長度與準確率負相關? 因為冗長推理鏈中充斥著"let me reconsider..."、"wait, maybe..."這類淺層套話,它們拉長序列但不產生實質思考。

為什麼短鏈也能保持高準確率? 因為這些鏈高度濃縮,幾乎每個token都需要深層計算,DTR接近上限。

論文給了個典型的例子。回答同一個幾何題,錯誤樣本用了27724個tokens,DTR只有13.9%;正確樣本只用3725個tokens,DTR達到19.0%。前者90%都是廢話,後者句句是乾貨。

為了證明真的找準了標準,他們在2024和2025的AIME數學競賽、2025年HMMT、以及研究生水平的GPQA科學問答中,測試了GPT-OSS、DeepSeek-R1、Qwen3等多個推理模型家族。結果DTR與準確率完全正相關。

至此,我們可以確定,DTR 確實為我們提供了一個基於模型內部動力學機制、而非表面字數的思考質量標尺。

基於DTR,論文還提出了Think@n方法,專門優化最燒錢的多重採樣模式。傳統做法是讓模型生成幾十個完整推理鏈再投票,Think@n只讓每個線程先吐出50個詞,立刻計算DTR。那些DTR極低、明顯在背套話的線程被掐斷,算力只留給開頭就展現強深層計算的高潛力候選。實驗顯示,這能用一半token達到或超過傳統方法的性能。

然而,這篇論文依然留下了一個巨大的遺憾。它僅僅停留在了一個裁判的角色,在測試時階段對已經生成的候選者進行截斷。

但未來路徑其實是很明顯的,我們完全可以將 DTR 轉化為強化學習(RL)階段的獎勵信號。如果我們在未來的模型對齊階段,不再僅僅獎勵模型得出了正確答案,而是將高 DTR 濃度作為獎勵函數之一,我們就能從基因層面上改變模型的行為模式。這將逼迫模型學會把龐大的計算量壓縮到極其精煉的高質量輸出中。

這才是從更長的思考到更深的思考本質轉變。不再用token數量衡量智能,而是用計算密度。

03 何為最高效的思考?

DTR確實提供了一個很好的標準去觀察模型是否在做更有意義的思考,從根本上解決了Overthinking識別的問題。

但它並沒有回答,為什麼這些想的更深的思考,效果更好。

最近卡耐基梅隆和NYU的一篇論文《從熵到表觀複雜性:為計算受限的智能體重塑信息論》,為我們提供了一個信息論上的線索。

傳統信息理論關注的核心是隨機信息,也就是熵(entropy)。香農告訴我們,一段文本的信息量取決於它的不可預測性。熵(entropy)越高,信息越充足。 

然而這根本解釋不AlphaGo這樣深度學習的自博弈模型。你給它輸入的內容只是遊戲規則,熵很低,但通過計算(推理過程),模型則能掌握非常多樣的輸出。

論文認為,關鍵在於所有的智能體,其算力都是有限的。我們不可能無窮無盡的從熵中學習,因此對這樣的系統而言,數據的價值不在於它的隨機性(熵),而在於它包含的可學習的結構複雜度。

對於算力受限的觀察者(比如人類棋手或AI模型)來說,暴力窮舉整個博弈樹是不現實的,所以必須提取更高階的抽象規律。這些規律的描述長度,遠遠超過了遊戲規則本身。

這就是COT有用的原因。

他們把這個結構複雜度,定義成表觀複雜性(Epiplexity)。

一串隨機生成的API密鑰可能有很高的熵,但Epiplexity接近於零,因為模型從中學不到任何可遷移的東西。相反,一段算法代碼的熵可能不高,但Epiplexity很高,因為理解它需要模型構建複雜的內部表徵。

這就解釋了為什麼高DTR的推理更有效,因為它們在產生更多的Epiplexity。 

當模型進行深層推理時,它不是在簡單地檢索記憶或應用表面規則,而是在實時構建新的認知結構

傳統理論會說這不可能,因為確定性變換不能增加信息。但Epiplexity告訴我們,這些策略不是憑空出現的,而是計算過程本身創造的結構

這篇論文把推理過程重新定義為結構信息的生成器

傳統觀點認為,推理是在搜索解空間。但Epiplexity視角告訴我們,好的推理不僅僅是搜索,更是在動態改變解空間的表徵方式。就像數學家不是在暴力枚舉定理,而是在發明新的數學對象、新的證明技巧,讓原本複雜的問題變得簡單。

這些步驟的共同特點是,它們都在為問題空間賦予額外的結構真正有價值的reasoning token,應該是那些迫使模型構建新的內部結構、發現新的模式、提煉更抽象規律的token。它們的特徵,就是生成時需要動用深層網絡的全部計算能力(高DTR),因為淺層的模式匹配已經不夠用了。

而且,從中我們也可以改變對智能的認知。即它不是關於處理多少信息,而是關於創造多少結構。AlphaZero通過自博弈創造圍棋策略,人類科學家通過實驗創造物理理論,語言模型通過深層推理創造問題的結構化表徵,它們的本質是一樣的,都是計算受限的智能體在試圖提取世界的可壓縮規律。

如果把這場從CoT到overthinking再到深度思考的演變放在更大的歷史背景下,它其實是AI系統從能力驅動向資源理性轉型的一個縮影。早期的深度學習革命解決的是能不能的問題——能不能識別圖像、能不能生成文本、能不能下贏圍棋。Test-time compute革命推動的是"能不能做更難的任務"——能不能證明數學定理、能不能寫出無bug的代碼、能不能規劃複雜項目。

但到了當下,當這些能力逐漸成熟後,邊際問題變成了「怎樣做最經濟」。如何用最少的計算達到相同質量,如何根據任務難度動態分配資源,如何避免在無用的方向上浪費計算。 

Overthinking問題的凸顯,正是這個轉型期的必然產物。

從這個角度看,DTR和epiplexity不僅是測量工具,更是一種新的設計哲學。它們告訴我們,思考的價值不在於生成了多少文本,而在於文本背後調用了多少結構性計算,以及這些計算能在多大程度上遷移到新任務。

這才是從Think Long到Think Deep的真正飛躍,也是一個在token越來越緊張的世界中,解決算力瓶頸的有效方式。

本文來自微信公眾號“騰訊科技”,作者:博陽,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論