斯坦福7B智能體全面超越GPT-4o，推理流登頂HF

36氪

11-03

【導讀】傳統智能體系統難以兼顧穩定性和學習能力，斯坦福等學者提出AgentFlow框架，通過模塊化和實時強化學習，在推理中持續優化策略，並使小規模模型在多項任務中超越GPT-4o，為AI發展開闢新思路。

當前AI Agent的發展正陷入兩難的境地：

一方面，訓練「全能型」大模型讓其同時承擔推理、規劃與工具調用，雖具一體化優勢，但在長鏈推理中往往訓練不穩定、擴展性受限；

另一方面，基於prompt的智能體系統雖具靈活性，卻缺乏學習與自我優化能力，無法從交互中持續進化。

如何突破這一瓶頸？

斯坦福大學聯合德州農工大學（Texas A&M）、加州大學聖地亞哥分校（UC San Diego）和Lambda的研究團隊給出了新答案：讓智能體系統在推理「流」中進行在線強化學習，從而實現持續的自我提升與能力進化。

他們提出AgentFlow框架採用模塊化架構，通過4個專門化智能體協同工作，配合專門設計的Flow-GRPO算法，使系統能夠在真實交互環境中持續優化決策策略。

實驗結果顯示，僅7B參數的AgentFlow在搜索、數學、科學等多個任務上全面超越GPT-4o（約200B參數）和 Llama-3.1-405B。

團隊負責人在推特上分享了工作，獲得了極大的關注。

該工作目前已登上HuggingFace Paper日榜第二名，以及周最火Huggingface 項目。

長鏈推理中的信用分配難題

訓練智能體系統面臨的核心挑戰是多輪信用分配（multi-turn credit assignment）問題：在長時跨度、獎勵稀疏的環境中，如何準確判斷每一步決策對最終結果的貢獻？

傳統的單一模型方法將所有功能集成在一個LLM中，通過特殊標籤（如 <tool_call>）一體化輸出思考、工具調用和回覆。

這種方式在短鏈任務中有效，但在複雜場景下容易出現：推理鏈過長導致訓練不穩定、工具選擇錯誤難以追溯、無法根據環境反饋動態調整策略。

而現有的智能體系統（如 LangGraph、OWL、Pydantic、AutoGen）雖然實現了模塊化，但大多依賴固定的 prompt 工程，缺乏從經驗中學習的機制。

AgentFlow多模塊實時交互，在「流」中學習

AgentFlow的設計思路是：將複雜的推理任務分解給專門化的智能體模塊，同時讓核心決策模塊能夠在交互中持續學習。

四模塊協同架構

系統由四個具備記憶能力的專門化智能體組成：

：分析任務需求，制定執行策略，選擇最合適的工具。這是系統的核心決策模塊，也是唯一需要訓練的部分。
：負責實際調用工具API，整合工具返回結果。
：基於系統累積的歷史記憶，評估中間結果是否符合任務目標和約束條件。
：整合所有信息和驗證反饋，生成最終答案或下一步行動建議。

關鍵創新在於：規劃器不是靜態的，而是通過在線（on-policy）強化學習在推理流中實時優化。

每輪交互後，系統會根據最終結果的成功或失敗，更新規劃器的決策策略，並將優化結果整合到系統記憶中，形成閉環的自適應學習過程。

Flow-GRPO算法，解決信用分配問題

團隊提出Flow-GRPO（Flow-based Group Relative Policy Optimization）算法，專門針對多輪推理場景設計。核心思想是將軌跡最終的獎勵信號（成功/失敗）廣播到每一步動作，把複雜的多輪強化學習問題轉化為一系列單輪策略更新。

具體做法是：

1. 收集完整的推理軌跡（從初始任務到最終結果）；

2. 根據最終結果計算 outcome reward；

3. 將這個 reward 分配給軌跡中每個規劃動作；

4. 使用相對優勢函數計算每個動作的優勢，進行策略梯度更新。

這種方法有效緩解了獎勵稀疏問題，同時保持了訓練的穩定性。

在線學習使系統能夠：快速糾正錯誤的工具調用、探索更優的子任務分解方式、根據環境反饋動態調整推理深度。

實驗結果：小模型的逆襲

研究團隊在10個跨領域基準上進行了系統評測，覆蓋知識檢索、智能體任務、數學推理和科學推理四大類。

性能對比

以Qwen-2.5-7B-Instruct為基座模型，AgentFlow 在所有類別中均顯著領先。

知識檢索：相比基線提升14.9%

智能體推理：提升14.0%

數學推理：提升14.5%

科學推理：提升4.1%

更令人驚訝的是跨規模對比結果：

7B的AgentFlow在搜索任務上比GPT-4o（約200B）高8.2%

在智能體任務上比Llama-3.1-405B高15.8%

3B模型的AgentFlow也能在多項任務中超越405B的基線模型

消融實驗的關鍵發現

1. 在線學習 vs 離線學習

對比實驗顯示，如果用傳統SFT方式訓練規劃器，性能反而會平均下降19%。這證明在真實交互環境中的在線學習是實現高效推理的必要條件。

2. 自主探索新策略

根據任務特點選擇合適的工具組合；同時，經過訓練的系統會自發探索出新的工具使用模式，比如組合使用維基百科搜索（Wikipedia Search）和特定網頁增強搜索（Web Search）的連招，通過工具鏈獲得更加深入地信息挖掘，而這些模式幾乎沒有在未訓練的推理流中出現。

3. 動態推理深度

在多跳搜索等密集推理任務中，訓練後的AgentFlow展現出「智能的懶惰」：對簡單任務保持較少的推理步數，對複雜任務才會增加推理深度。

隨著最大步數限制的提升，性能穩步上升但平均步數不會同比例增長。

4. 模塊協作的價值

雖然推理流本身就能帶來性能提升，但未經訓練的系統容易出現循環錯誤或卡頓。

通過強化學習訓練後，系統在工具調用準確性、子任務規劃精細度和全局性能上都有明顯改善。作者團隊提供過了一個例子來生動展示了在實驗中的有趣發現。

在這個例子中，在經過Flow-GRPO訓練前的推理系統，一旦遇到了諸如這裡的python變量定義錯誤，便會反覆輸出相同的子目標和工具調用，極大地浪費時間和推理效率。

在經過Flow-GRPO在線更新後，動作規劃器能夠根據之前的錯誤自動調整用更確切的子目標和任務描述來指導後續步驟，並且經過這樣的隨機應變後，一步成功。

這個例子也極大程度展現了，在智能體系統真實推理中進行強化學習的極大潛力。

技術意義與未來展望

AgentFlow的工作價值在於：

1. 提供了新的訓練範式證明了智能體系統可以通過在線強化學習獲得類似大模型的學習能力，且在特定任務上效率更高。

2. 驗證了「小而精」的可行性在合理的系統設計下，小模型通過模塊化協作和持續學習，可以在複雜推理任務中超越大規模通用模型。

3. 為可擴展AI提供思路模塊化架構使得系統可以靈活添加新工具、調整模塊功能。

AgentFlow至少讓我們看到：Agentic AI的發展不必完全依賴模型規模的堆砌，系統架構創新+高效訓練方法可能是更值得探索的方向。

參考資料：

https://arxiv.org/abs/2510.05592

本文來自微信公眾號“新智元”，編輯：LRST，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論