阿里巴巴的Qwen团队推出了QwQ-32B,这是一个320亿参数的AI模型,其性能与更大的DeepSeek-R1相媲美。这一突破突显了在强大的基础模型上扩展强化学习(RL)的潜力。
Qwen团队成功将代理能力集成到推理模型中,使其能够批判性思考、利用工具,并根据环境反馈调整其推理。
"扩展RL有望提升模型性能,超越常规的预训练和后训练方法,"团队表示。"最近的研究表明,RL可以显著提高模型的推理能力。"
QwQ-32B的性能可与拥有6710亿参数(37亿激活)的DeepSeek-R1相媲美,这证明了在经过广泛世界知识预训练的强大基础模型上应用RL的有效性。这一remarkable结果突出了RL弥补模型规模和性能差距的潜力。
该模型已在一系列基准测试中进行了评估,包括AIME24、LiveCodeBench、LiveBench、IFEval和BFCL,旨在评估其数学推理、编码能力和一般问题解决能力。
结果突出了QwQ-32B与其他领先模型(包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1)的性能对比。
基准测试结果:
- AIME24: QwQ-32B获得79.5分,略低于DeepSeek-R1-6718的79.8分,但明显高于OpenAl-o1-mini的63.6分和蒸馏模型。
- LiveCodeBench: QwQ-32B得分63.4,再次与DeepSeek-R1-6718的65.9分相当,并超过了蒸馏模型和OpenAl-o1-mini的53.8分。
- LiveBench: QwQ-32B获得73.1分,而DeepSeek-R1-6718得71.6分,并优于蒸馏模型和OpenAl-o1-mini的57.5分。
- IFEval: QwQ-32B得分83.9,非常接近DeepSeek-R1-6718的83.3分,并领先于蒸馏模型和OpenAl-o1-mini的59.1分。
- BFCL: QwQ-32B获得66.4分,而DeepSeek-R1-6718得62.8分,表现优于蒸馏模型和OpenAl-o1-mini的49.3分。
Qwen团队的方法涉及冷启动检查点和多阶段RL过程,由基于结果的奖励驱动。初始阶段专注于扩展RL用于数学和编码任务,利用准确性验证器和代码执行服务器。第二阶段扩展到一般能力,纳入来自一般奖励模型和基于规则的验证器的奖励。
"我们发现,这个阶段的RL训练只需很少的步骤就可以提高其他一般能力,如指令遵循、与人类偏好的一致性和代理性能,而数学和编码性能不会显著下降,"团队解释道。
QwQ-32B是开放权重,可在Hugging Face和ModelScope上获得,采用Apache 2.0许可,也可通过Qwen Chat访问。Qwen团队将此视为扩展RL以增强推理能力的初步步骤,并旨在进一步探索将代理与RL结合用于长期推理。
"在我们致力于开发下一代Qwen的过程中,我们相信,将更强大的基础模型与由扩展计算资源驱动的RL相结合,将使我们更接近实现人工通用智能(AGI),"团队表示。
另见:Deepgram Nova-3 Medical: AI语音模型降低医疗转录错误

想了解更多来自行业领导者的AI和大数据信息吗?查看在阿姆斯特丹、加州和伦敦举办的AI & Big Data Expo。这个全面的活动与其他领先活动如Intelligent Automation Conference、BlockX、Digital Transformation Week和Cyber Security & Cloud Expo同时举办。
在这里探索由TechForge提供的其他即将到来的企业技术活动和网络研讨会events。
本文最初发表于AI News。





