阿里巴巴推出全新 Qwen2 AI 模型，挑戰 Meta 和 OpenAI

06-08

本文為機器翻譯

展示原文

中國電子商務巨頭阿里巴巴是中國人工智能領域的重要參與者。今天，阿里巴巴宣佈發佈其最新的人工智能模型 Qwen2——從某些方面來看，這是目前最好的開源選擇。

Qwen2 由阿里雲開發，是該公司統一千文（Qwen）模型系列的下一代產品，該系列包括統一千文 LLM （也稱為 Qwen）、視覺 AI 模型 Qwen-VL 和 Qwen-Audio。

Qwen 模型系列已針對涵蓋各個行業和領域的多語言數據進行了預訓練，其中 Qwen-72B 是該系列中最強大的模型。它已針對令人印象深刻的 3 萬億個 token 數據進行了訓練。相比之下，Meta 最強大的 Llama-2 變體基於 2 萬億個 token。然而，Llama-3 正在消化 15 萬億個 token。

根據 Qwen 團隊最近的一篇博客文章，Qwen2 可以處理 128K 個上下文標記，與 OpenAI 的 GPT-4o 相當。該團隊聲稱，Qwen2 在幾乎所有最重要的綜合基準測試中都優於 Meta 的 LLama3，使其成為目前最好的開源模型。

不過值得注意的是，獨立的Elo Arena對 Qwen2-72B-Instruct 的排名略高於 GPT-4-0314，但低於 Llama3 70B 和 GPT-4-0125-preview，使其成為迄今為止人類測試人員中第二受歡迎的開源 LLM。

Qwen2 有五種不同的大小，參數數量從 5 億到 720 億不等，新版本在不同專業領域都有顯著改進。此外，與上一版本相比，這些模型使用的數據增加了 27 種語言，除了英語和中文外，還包括德語、法語、西班牙語、意大利語和俄語。

Qwen 團隊在 HuggingFace 上的模型官方頁面上聲稱：“與包括之前發佈的 Qwen1.5 在內的最先進的開源語言模型相比，Qwen2 總體上超越了大多數開源模型，並在一系列針對語言理解、語言生成、多語言能力、編碼、數學和推理的基準測試中表現出與專有模型的競爭力。”

Qwen2 模型還表現出對長上下文的出色理解。Qwen2-72B-Instruct 可以在其龐大上下文中的任何位置處理信息提取任務而不會出錯，並且它幾乎完美地通過了“大海撈針”測試。這很重要，因為傳統上，我們與模型的交互越多，模型性能就會開始下降。

隨著此次發佈，Qwen 團隊還更改了其模型的許可證。雖然 Qwen2-72B 及其指令調優模型繼續使用原始的 Qianwen 許可證，但所有其他模型都採用了開源軟件世界的標準 Apache 2.0。

阿里雲在官方博文中表示：“不久的將來，我們會繼續開源新的模型，加速開源AI。”

Decrypt測試了該模型，發現它能夠很好地理解多種語言的任務。該模型也受到審查，特別是在中國被視為敏感的主題方面。這似乎與阿里巴巴的說法一致，阿里巴巴聲稱 Qwen2 是最不可能提供不安全結果的模型——無論是非法活動、欺詐、色情還是隱私暴力——無論它以哪種語言提示。

此外，它對系統提示有很好的理解，這意味著所應用的條件將對其答案產生更大的影響。例如，當被告知要扮演一個具有法律知識的樂於助人的助手與扮演一個總是根據法律做出回應的知識淵博的律師時，回答顯示出很大的差異。它提供的建議與 GPT-4o 提供的建議類似，但更簡潔。

該團隊表示，下一次模型升級將為 Qwen2 LLM 帶來多模態性，可能將所有系列合併為一個強大的模型。“此外，我們將 Qwen2 語言模型擴展為多模態，能夠理解視覺和音頻信息，”他們補充道。

Qwen 可通過HuggingFace Spaces進行在線測試。那些擁有足夠計算能力在本地運行它的人也可以通過 HuggingFace 免費下載權重。

對於那些願意押注開源 AI 的人來說，Qwen2 模型可能是一個很好的選擇。它比大多數其他模型具有更大的 token 上下文窗口，使其比 Meta 的 LLama 3 更強大。此外，由於其許可證，其他人共享的微調版本可能會對其進行改進，從而進一步提高其得分並克服偏見。

由Ryan Ozawa編輯。