Qwen 2.5-Max 在某些基准测试中优于 DeepSeek V3

AI News

01-29

本文为机器翻译

展示原文

阿里巴巴推出了Qwen 2.5-Max,这是该公司最新的专家混合(MoE)大规模模型。

Qwen 2.5-Max在超过20万亿个令牌上进行了预训练,并通过监督微调(SFT)和基于人类反馈的强化学习(RLHF)等尖端技术进行了微调。

该模型现已通过阿里巴巴云的API提供,并可通过Qwen Chat进行探索,中国科技巨头正邀请开发者和研究人员亲身体验其突破性成果。

优于同行

在各种基准测试中,Qwen 2.5-Max的表现优于一些最著名的AI模型。

评估包括流行指标,如大学水平问题解决的MMLU-Pro、编码专业知识的LiveCodeBench、整体能力的LiveBench以及针对人类偏好的Arena-Hard。

据阿里巴巴称,"Qwen 2.5-Max在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基准测试中优于DeepSeek V3,同时在MMLU-Pro等其他评估中也表现出竞争力。"

AI基准测试比较阿里巴巴Qwen 2.5-Max与其他人工智能模型如DeepSeek V3。 — *(来源: 阿里巴巴)*

这个针对下游任务如聊天和编码的指令模型,直接与GPT-4o、Claude-3.5-Sonnet和DeepSeek V3等领先模型竞争。在这些模型中,Qwen 2.5-Max在几个关键领域都超过了竞争对手。

基础模型的比较也产生了令人鼓舞的结果。虽然像GPT-4o和Claude-3.5-Sonnet这样的专有模型由于访问限制而无法触及,但Qwen 2.5-Max被评估为领先的公开选择,如DeepSeek V3、Llama-3.1-405B(最大的开放权重密集模型)和Qwen2.5-72B。再次,阿里巴巴的新秀在各方面都展现出了出色的性能。

"我们的基础模型在大多数基准测试中都表现出了显著优势,"阿里巴巴表示,"我们对通过后训练技术提升Qwen 2.5-Max的下一版本到新高度感到乐观。"

DeepSeek V3的爆发引起了整个AI界对大规模MoE模型的关注。与此同时,我们一直在构建Qwen2.5-Max,这是一个大型MoE LLM,它在大量数据上进行了预训练,并通过精心设计的SFT和RLHF方法进行了后训练。它在竞争性…pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) 2025年1月28日

使Qwen 2.5-Max更易访问

为了让这个模型对全球社区更加可访问,阿里巴巴已将Qwen 2.5-Max与其Qwen Chat平台集成,用户可以直接与该模型进行各种互动,无论是探索其搜索功能还是测试其对复杂查询的理解。

对于开发者来说,Qwen 2.5-Max API现已通过阿里巴巴云提供,型号名称为"qwen-max-2025-01-25"。有兴趣的用户可以注册阿里巴巴云账户,激活Model Studio服务,并生成API密钥。

该API甚至与OpenAI的生态系统兼容,使现有项目和工作流程的集成变得更加简单。这种兼容性降低了那些渴望测试应用程序功能的人的障碍。

阿里巴巴以Qwen 2.5-Max发出了一个强烈的意图信号。该公司不断扩大AI模型规模的承诺,不仅是为了提高性能基准,也是为了增强这些系统的基本思维和推理能力。

"数据和模型规模的扩展不仅展示了模型智能的进步,也反映了我们对开创性研究的坚定承诺,"阿里巴巴指出。

展望未来,该团队旨在推动强化学习的边界,培养更加先进的推理技能。他们表示,这可以使他们的模型不仅能够匹配,而且能够超越人类在解决复杂问题方面的智能。

对于行业来说,这可能会产生深远的影响。随着扩展方法的改进和Qwen模型的突破,我们很可能会在全球范围内的AI驱动领域看到最近几周所看到的进一步涟漪。

(照片由Maico Amorim拍摄)

另见:ChatGPT Gov旨在现代化美国政府机构

想从行业领导者那里了解更多关于AI和大数据的知识吗?查看在阿姆斯特丹、加州和伦敦举办的AI & Big Data Expo。这个全面的活动与其他领先活动如Intelligent Automation Conference、BlockX、Digital Transformation Week和Cyber Security & Cloud Expo同时举办。

在这里探索由TechForge提供的其他即将到来的企业技术活动和网络研讨会链接。

本文最初发表于AI News。

Qwen 2.5-Max 在某些基准测试中优于 DeepSeek V3

优于同行

使Qwen 2.5-Max更易访问

下载 APP 参与福利活动