阿里巴巴 Qwen QwQ-32B:规模化强化学习展示

avatar
AI News
03-06
本文为机器翻译
展示原文

阿里巴巴的Qwen团队推出了QwQ-32B,这是一个320亿参数的AI模型,其性能与更大的DeepSeek-R1相媲美。这一突破突显了在强大的基础模型上扩展强化学习(RL)的潜力。

Qwen团队成功将代理能力集成到推理模型中,使其能够批判性思考、利用工具,并根据环境反馈调整其推理。

"扩展RL有望提升模型性能,超越常规的预训练和后训练方法,"团队表示。"最近的研究表明,RL可以显著提高模型的推理能力。"

QwQ-32B的性能可与拥有6710亿参数(37亿激活)的DeepSeek-R1相媲美,这证明了在经过广泛世界知识预训练的强大基础模型上应用RL的有效性。这一remarkable结果突出了RL弥补模型规模和性能差距的潜力。

该模型已在一系列基准测试中进行了评估,包括AIME24、LiveCodeBench、LiveBench、IFEval和BFCL,旨在评估其数学推理、编码能力和一般问题解决能力。

结果突出了QwQ-32B与其他领先模型(包括DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini和原始DeepSeek-R1)的性能对比。

基准测试结果:

  • AIME24: QwQ-32B获得79.5分,略低于DeepSeek-R1-6718的79.8分,但明显高于OpenAl-o1-mini的63.6分和蒸馏模型。
  • LiveCodeBench: QwQ-32B得分63.4,再次与DeepSeek-R1-6718的65.9分相当,并超过了蒸馏模型和OpenAl-o1-mini的53.8分。
  • LiveBench: QwQ-32B获得73.1分,而DeepSeek-R1-6718得71.6分,并优于蒸馏模型和OpenAl-o1-mini的57.5分。
  • IFEval: QwQ-32B得分83.9,非常接近DeepSeek-R1-6718的83.3分,并领先于蒸馏模型和OpenAl-o1-mini的59.1分。
  • BFCL: QwQ-32B获得66.4分,而DeepSeek-R1-6718得62.8分,表现优于蒸馏模型和OpenAl-o1-mini的49.3分。

Qwen团队的方法涉及冷启动检查点和多阶段RL过程,由基于结果的奖励驱动。初始阶段专注于扩展RL用于数学和编码任务,利用准确性验证器和代码执行服务器。第二阶段扩展到一般能力,纳入来自一般奖励模型和基于规则的验证器的奖励。

"我们发现,这个阶段的RL训练只需很少的步骤就可以提高其他一般能力,如指令遵循、与人类偏好的一致性和代理性能,而数学和编码性能不会显著下降,"团队解释道。

QwQ-32B是开放权重,可在Hugging FaceModelScope上获得,采用Apache 2.0许可,也可通过Qwen Chat访问。Qwen团队将此视为扩展RL以增强推理能力的初步步骤,并旨在进一步探索将代理与RL结合用于长期推理。

"在我们致力于开发下一代Qwen的过程中,我们相信,将更强大的基础模型与由扩展计算资源驱动的RL相结合,将使我们更接近实现人工通用智能(AGI),"团队表示。

另见:Deepgram Nova-3 Medical: AI语音模型降低医疗转录错误

想了解更多来自行业领导者的AI和大数据信息吗?查看在阿姆斯特丹、加州和伦敦举办的AI & Big Data Expo。这个全面的活动与其他领先活动如Intelligent Automation ConferenceBlockXDigital Transformation WeekCyber Security & Cloud Expo同时举办。

在这里探索由TechForge提供的其他即将到来的企业技术活动和网络研讨会events

本文最初发表于AI News

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论