阿里巴巴 Qwen QwQ-32B：規模化強化學習展示

03-06

本文為機器翻譯

展示原文

阿里巴巴的Qwen團隊推出了QwQ-32B,這是一個320億引數的AI模型,其效能與更大的DeepSeek-R1相媲美。這一突破突顯了在強大的基礎模型上擴充套件強化學習(RL)的潛力。

Qwen團隊成功將代理能力整合到推理模型中,使其能夠批判性思考、利用工具,並根據環境反饋調整其推理。

"擴充套件RL有望提升模型效能,超越常規的預訓練和後訓練方法,"團隊表示。"最近的研究表明,RL可以顯著提高模型的推理能力。"

QwQ-32B的效能可與擁有6710億引數(37億啟用)的DeepSeek-R1相媲美,這證明了在經過廣泛世界知識預訓練的強大基礎模型上應用RL的有效性。這一remarkable結果突出了RL彌補模型規模和效能差距的潛力。

該模型已在一系列基準測試中進行了評估,包括AIME24、LiveCodeBench、LiveBench、IFEval和BFCL,旨在評估其數學推理、編碼能力和一般問題解決能力。

結果突出了QwQ-32B與其他領先模型(包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1)的效能對比。

基準測試結果:

AIME24: QwQ-32B獲得79.5分,略低於DeepSeek-R1-6718的79.8分,但明顯高於OpenAl-o1-mini的63.6分和蒸餾模型。
LiveCodeBench: QwQ-32B得分63.4,再次與DeepSeek-R1-6718的65.9分相當,並超過了蒸餾模型和OpenAl-o1-mini的53.8分。
LiveBench: QwQ-32B獲得73.1分,而DeepSeek-R1-6718得71.6分,並優於蒸餾模型和OpenAl-o1-mini的57.5分。
IFEval: QwQ-32B得分83.9,非常接近DeepSeek-R1-6718的83.3分,並領先於蒸餾模型和OpenAl-o1-mini的59.1分。
BFCL: QwQ-32B獲得66.4分,而DeepSeek-R1-6718得62.8分,表現優於蒸餾模型和OpenAl-o1-mini的49.3分。

Qwen團隊的方法涉及冷啟動檢查點和多階段RL過程,由基於結果的獎勵驅動。初始階段專注於擴充套件RL用於數學和編碼任務,利用準確性驗證器和程式碼執行伺服器。第二階段擴充套件到一般能力,納入來自一般獎勵模型和基於規則的驗證器的獎勵。

"我們發現,這個階段的RL訓練只需很少的步驟就可以提高其他一般能力,如指令遵循、與人類偏好的一致性和代理效能,而數學和編碼效能不會顯著下降,"團隊解釋道。

QwQ-32B是開放權重,可在Hugging Face和ModelScope上獲得,採用Apache 2.0許可,也可透過Qwen Chat訪問。Qwen團隊將此視為擴充套件RL以增強推理能力的初步步驟,並旨在進一步探索將代理與RL結合用於長期推理。

"在我們致力於開發下一代Qwen的過程中,我們相信,將更強大的基礎模型與由擴充套件計算資源驅動的RL相結合,將使我們更接近實現人工通用智慧(AGI),"團隊表示。

想了解更多來自行業領導者的AI和大資料資訊嗎?檢視在阿姆斯特丹、加州和倫敦舉辦的AI & Big Data Expo。這個全面的活動與其他領先活動如Intelligent Automation Conference、BlockX、Digital Transformation Week和Cyber Security & Cloud Expo同時舉辦。

在這裡探索由TechForge提供的其他即將到來的企業技術活動和網路研討會events。

本文最初發表於AI News。