阿里巴巴推出全新 Qwen2 AI 模型，挑战 Meta 和 OpenAI

06-08

本文为机器翻译

展示原文

中国电子商务巨头阿里巴巴是中国人工智能领域的重要参与者。今天，阿里巴巴宣布发布其最新的人工智能模型 Qwen2——从某些方面来看，这是目前最好的开源选择。

Qwen2 由阿里云开发，是该公司统一千文（Qwen）模型系列的下一代产品，该系列包括统一千文 LLM （也称为 Qwen）、视觉 AI 模型 Qwen-VL 和 Qwen-Audio。

Qwen 模型系列已针对涵盖各个行业和领域的多语言数据进行了预训练，其中 Qwen-72B 是该系列中最强大的模型。它已针对令人印象深刻的 3 万亿个 token 数据进行了训练。相比之下，Meta 最强大的 Llama-2 变体基于 2 万亿个 token。然而，Llama-3 正在消化 15 万亿个 token。

根据 Qwen 团队最近的一篇博客文章，Qwen2 可以处理 128K 个上下文标记，与 OpenAI 的 GPT-4o 相当。该团队声称，Qwen2 在几乎所有最重要的综合基准测试中都优于 Meta 的 LLama3，使其成为目前最好的开源模型。

不过值得注意的是，独立的Elo Arena对 Qwen2-72B-Instruct 的排名略高于 GPT-4-0314，但低于 Llama3 70B 和 GPT-4-0125-preview，使其成为迄今为止人类测试人员中第二受欢迎的开源 LLM。

Qwen2 有五种不同的大小，参数数量从 5 亿到 720 亿不等，新版本在不同专业领域都有显著改进。此外，与上一版本相比，这些模型使用的数据增加了 27 种语言，除了英语和中文外，还包括德语、法语、西班牙语、意大利语和俄语。

Qwen 团队在 HuggingFace 上的模型官方页面上声称：“与包括之前发布的 Qwen1.5 在内的最先进的开源语言模型相比，Qwen2 总体上超越了大多数开源模型，并在一系列针对语言理解、语言生成、多语言能力、编码、数学和推理的基准测试中表现出与专有模型的竞争力。”

Qwen2 模型还表现出对长上下文的出色理解。Qwen2-72B-Instruct 可以在其庞大上下文中的任何位置处理信息提取任务而不会出错，并且它几乎完美地通过了“大海捞针”测试。这很重要，因为传统上，我们与模型的交互越多，模型性能就会开始下降。

随着此次发布，Qwen 团队还更改了其模型的许可证。虽然 Qwen2-72B 及其指令调优模型继续使用原始的 Qianwen 许可证，但所有其他模型都采用了开源软件世界的标准 Apache 2.0。

阿里云在官方博文中表示：“不久的将来，我们会继续开源新的模型，加速开源AI。”

Decrypt测试了该模型，发现它能够很好地理解多种语言的任务。该模型也受到审查，特别是在中国被视为敏感的主题方面。这似乎与阿里巴巴的说法一致，阿里巴巴声称 Qwen2 是最不可能提供不安全结果的模型——无论是非法活动、欺诈、色情还是隐私暴力——无论它以哪种语言提示。

此外，它对系统提示有很好的理解，这意味着所应用的条件将对其答案产生更大的影响。例如，当被告知要扮演一个具有法律知识的乐于助人的助手与扮演一个总是根据法律做出回应的知识渊博的律师时，回答显示出很大的差异。它提供的建议与 GPT-4o 提供的建议类似，但更简洁。

该团队表示，下一次模型升级将为 Qwen2 LLM 带来多模态性，可能将所有系列合并为一个强大的模型。“此外，我们将 Qwen2 语言模型扩展为多模态，能够理解视觉和音频信息，”他们补充道。

Qwen 可通过HuggingFace Spaces进行在线测试。那些拥有足够计算能力在本地运行它的人也可以通过 HuggingFace 免费下载权重。

对于那些愿意押注开源 AI 的人来说，Qwen2 模型可能是一个很好的选择。它比大多数其他模型具有更大的 token 上下文窗口，使其比 Meta 的 LLama 3 更强大。此外，由于其许可证，其他人共享的微调版本可能会对其进行改进，从而进一步提高其得分并克服偏见。

由Ryan Ozawa编辑。