阿里巴巴的Qwen團隊推出了QwQ-32B,這是一個320億引數的AI模型,其效能與更大的DeepSeek-R1相媲美。這一突破突顯了在強大的基礎模型上擴充套件強化學習(RL)的潛力。
Qwen團隊成功將代理能力整合到推理模型中,使其能夠批判性思考、利用工具,並根據環境反饋調整其推理。
"擴充套件RL有望提升模型效能,超越常規的預訓練和後訓練方法,"團隊表示。"最近的研究表明,RL可以顯著提高模型的推理能力。"
QwQ-32B的效能可與擁有6710億引數(37億啟用)的DeepSeek-R1相媲美,這證明了在經過廣泛世界知識預訓練的強大基礎模型上應用RL的有效性。這一remarkable結果突出了RL彌補模型規模和效能差距的潛力。
該模型已在一系列基準測試中進行了評估,包括AIME24、LiveCodeBench、LiveBench、IFEval和BFCL,旨在評估其數學推理、編碼能力和一般問題解決能力。
結果突出了QwQ-32B與其他領先模型(包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1)的效能對比。
基準測試結果:
- AIME24: QwQ-32B獲得79.5分,略低於DeepSeek-R1-6718的79.8分,但明顯高於OpenAl-o1-mini的63.6分和蒸餾模型。
- LiveCodeBench: QwQ-32B得分63.4,再次與DeepSeek-R1-6718的65.9分相當,並超過了蒸餾模型和OpenAl-o1-mini的53.8分。
- LiveBench: QwQ-32B獲得73.1分,而DeepSeek-R1-6718得71.6分,並優於蒸餾模型和OpenAl-o1-mini的57.5分。
- IFEval: QwQ-32B得分83.9,非常接近DeepSeek-R1-6718的83.3分,並領先於蒸餾模型和OpenAl-o1-mini的59.1分。
- BFCL: QwQ-32B獲得66.4分,而DeepSeek-R1-6718得62.8分,表現優於蒸餾模型和OpenAl-o1-mini的49.3分。
Qwen團隊的方法涉及冷啟動檢查點和多階段RL過程,由基於結果的獎勵驅動。初始階段專注於擴充套件RL用於數學和編碼任務,利用準確性驗證器和程式碼執行伺服器。第二階段擴充套件到一般能力,納入來自一般獎勵模型和基於規則的驗證器的獎勵。
"我們發現,這個階段的RL訓練只需很少的步驟就可以提高其他一般能力,如指令遵循、與人類偏好的一致性和代理效能,而數學和編碼效能不會顯著下降,"團隊解釋道。
QwQ-32B是開放權重,可在Hugging Face和ModelScope上獲得,採用Apache 2.0許可,也可透過Qwen Chat訪問。Qwen團隊將此視為擴充套件RL以增強推理能力的初步步驟,並旨在進一步探索將代理與RL結合用於長期推理。
"在我們致力於開發下一代Qwen的過程中,我們相信,將更強大的基礎模型與由擴充套件計算資源驅動的RL相結合,將使我們更接近實現人工通用智慧(AGI),"團隊表示。
另見:Deepgram Nova-3 Medical: AI語音模型降低醫療轉錄錯誤

想了解更多來自行業領導者的AI和大資料資訊嗎?檢視在阿姆斯特丹、加州和倫敦舉辦的AI & Big Data Expo。這個全面的活動與其他領先活動如Intelligent Automation Conference、BlockX、Digital Transformation Week和Cyber Security & Cloud Expo同時舉辦。
在這裡探索由TechForge提供的其他即將到來的企業技術活動和網路研討會events。
本文最初發表於AI News。





