最近整個 AI 圈的目光似乎都集中在 GPT-5 上,相關爆料滿天飛,但模型遲遲不見蹤影。
我們報道了 The Information 扒出的 GPT-5長文內幕,奧特曼似乎也坐不住,發了推文表示「驚喜很多,值得等待」。
那麼,在等待的過程中,我們來看看這次 GPT-5 的「疑似王牌」之一:通用驗證器(universal verifier)。
據知情人士透露,OpenAI 一直在開發一種研究人員稱之為「通用驗證器」的東西,這個東西可能是 GPT-5 中用到的重要技術。
這個概念源於 OpenAI 去年發表的一篇論文。它解決的問題是:當 LLM 僅優化答案正確性時,其推理過程(如 Chain-of-Thought)變得難以被人類或小型模型理解和驗證,導致「可解釋性」下降。但在高風險應用中,用戶需要能快速、準確判斷模型輸出是否正確,而不僅是輸出答案本身。
為此,該論文提出了一套已準備好投入生產的技術管線,其核心在於:讓一個「驗證者」小模型來為「證明者」大模型的推理鏈打分,並將其作為獎勵信號反饋給大模型進行策略更新。
論文標題:Prover-Verifier Games improve legibility of LLM outputs
論文地址:https://arxiv.org/pdf/2407.13692
論文明確指出,這個驗證者模型足夠小,可以進行大規模部署,並且是「為未來的 GPT 部署而設計」的。
你可以把它想象成一個模型裡住著兩個「人格」,它們在進行一場持續的「左右腦互搏」遊戲:
- 「證明者」人格(Prover):它扮演著一個積極解決問題的角色。在完成一道題後,它會盡力生成詳細的推理過程,以說服那個輕量級的「驗證者」網絡,證明自己的答案是正確且可靠的。
- 「欺騙者」人格(Sneaky Persona):它會故意在推理中植入錯誤的結論,但表面上依然會偽裝得邏輯嚴密,目標是試圖騙過同一個「驗證者」。
聽起來是不是很像 GAN(生成對抗網絡)?
通過讓大模型在這兩個角色之間不斷交替,它既能學會寫出邏輯更嚴謹、更難被偽造的解決方案,同時,那個小規模的「驗證者」模型在反覆的「欺騙」與「驗證」中,其識別錯誤、標記漏洞的能力也變得越來越敏銳。這樣做的好處在於,即使未來模型遠超人類能力,只要其輸出能被「較弱但可信」的模型驗證,就能保持人類對其的控制與信任。
論文提出的訓練方法能讓模型逐漸學會產生清晰且結構良好的答案。
去年 8 月《連線》雜誌的一篇文章披露,OpenAI 在微調 GPT-4 的代碼助手時,就已經用基於模型的「批評家」在部分場景替代了人類反饋。
文章特別指出,該系統「將被整合到未來主流模型的 RLHF(基於人類反饋的強化學習)流程中」。
有人評論說,「證明者 - 驗證者」訓練方法不僅僅是一個小優化,它可能代表了 AI 發展的下一個時代。我們正在從一個依賴海量數據、靠「堆料」來提升性能的「scaling 時代」,轉向一個通過設計更智能的內部學習機制、讓 AI 自我完善和進化的「架構突破」時代。這或許是我們突破當前數據瓶頸、實現更高級別通用人工智能的關鍵路徑。
值得一提的是,這篇論文來自 OpenAI 的超級對齊團隊。在論文發佈時,團隊就已經分崩離析。去年,機器之心詳細報道過這篇論文,感興趣的讀者可以重溫一下。
論文之外,GPT-5 模型也有了一些新消息。
今天一大早,某博主發現 Perplexity 有漏洞訪問 GPT-5,並且有 GPT-5 和 5 Pro 兩個版本,限時 4 小時。
他展示了自己用 GPT-5 生成的小黃人,動態效果看起來很絲滑。
他還做了一個類似 Doom(FPS 遊戲)的遊戲片段,看起來也非常還原。
網友紛紛表示「震驚」,認為這可能是 AI 生成的「新時代」。
無論如何,大家對 GPT-5 的期待已經拉滿了!
你覺得 GPT-5 會是個什麼樣子?
參考鏈接:
https://x.com/rohanpaul_ai/status/1951400750187209181
https://x.com/chetaslua/status/1951758235272401030
本文來自微信公眾號“機器之心”(ID:almosthuman2014),作者:機器之心,36氪經授權發佈。



