Qwen 2.5-Max 在某些基準測試中優於 DeepSeek V3

avatar
AI News
01-29
本文為機器翻譯
展示原文

阿里巴巴推出了Qwen 2.5-Max,這是該公司最新的專家混合(MoE)大規模模型。

Qwen 2.5-Max在超過20萬億個令牌上進行了預訓練,並透過監督微調(SFT)和基於人類反饋的強化學習(RLHF)等尖端技術進行了微調。

該模型現已透過阿里巴巴雲的API提供,並可透過Qwen Chat進行探索,中國科技巨頭正邀請開發者和研究人員親身體驗其突破性成果。

優於同行

在各種基準測試中,Qwen 2.5-Max的表現優於一些最著名的AI模型。

評估包括流行指標,如大學水平問題解決的MMLU-Pro、編碼專業知識的LiveCodeBench、整體能力的LiveBench以及針對人類偏好的Arena-Hard。

據阿里巴巴稱,"Qwen 2.5-Max在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等基準測試中優於DeepSeek V3,同時在MMLU-Pro等其他評估中也表現出競爭力。"

AI基準測試比較阿里巴巴Qwen 2.5-Max與其他人工智慧模型如DeepSeek V3。
(來源: 阿里巴巴)

這個針對下游任務如聊天和編碼的指令模型,直接與GPT-4o、Claude-3.5-Sonnet和DeepSeek V3等領先模型競爭。在這些模型中,Qwen 2.5-Max在幾個關鍵領域都超過了競爭對手。

基礎模型的比較也產生了令人鼓舞的結果。雖然像GPT-4o和Claude-3.5-Sonnet這樣的專有模型由於訪問限制而無法觸及,但Qwen 2.5-Max被評估為領先的公開選擇,如DeepSeek V3、Llama-3.1-405B(最大的開放權重密集模型)和Qwen2.5-72B。再次,阿里巴巴的新秀在各方面都展現出了出色的效能。

"我們的基礎模型在大多數基準測試中都表現出了顯著優勢,"阿里巴巴表示,"我們對通過後訓練技術提升Qwen 2.5-Max的下一版本到新高度感到樂觀。"

DeepSeek V3的爆發引起了整個AI界對大規模MoE模型的關注。與此同時,我們一直在構建Qwen2.5-Max,這是一個大型MoE LLM,它在大量資料上進行了預訓練,並透過精心設計的SFT和RLHF方法進行了後訓練。它在競爭性…pic.twitter.com/oHVl16vfje

— Qwen (@Alibaba_Qwen) 2025年1月28日

使Qwen 2.5-Max更易訪問

為了讓這個模型對全球社群更加可訪問,阿里巴巴已將Qwen 2.5-Max與其Qwen Chat平臺整合,使用者可以直接與該模型進行各種互動,無論是探索其搜尋功能還是測試其對複雜查詢的理解。

對於開發者來說,Qwen 2.5-Max API現已透過阿里巴巴雲提供,型號名稱為"qwen-max-2025-01-25"。有興趣的使用者可以註冊阿里巴巴雲賬戶,啟用Model Studio服務,並生成API金鑰。

該API甚至與OpenAI的生態系統相容,使現有專案和工作流程的整合變得更加簡單。這種相容性降低了那些渴望測試應用程式功能的人的障礙。

阿里巴巴以Qwen 2.5-Max發出了一個強烈的意圖訊號。該公司不斷擴大AI模型規模的承諾,不僅是為了提高效能基準,也是為了增強這些系統的基本思維和推理能力。

"資料和模型規模的擴充套件不僅展示了模型智慧的進步,也反映了我們對開創性研究的堅定承諾,"阿里巴巴指出。

展望未來,該團隊旨在推動強化學習的邊界,培養更加先進的推理技能。他們表示,這可以使他們的模型不僅能夠匹配,而且能夠超越人類在解決複雜問題方面的智慧。

對於行業來說,這可能會產生深遠的影響。隨著擴充套件方法的改進和Qwen模型的突破,我們很可能會在全球範圍內的AI驅動領域看到最近幾周所看到的進一步漣漪。

(照片由Maico Amorim拍攝)

另見:ChatGPT Gov旨在現代化美國政府機構

想從行業領導者那裡瞭解更多關於AI和大資料的知識嗎?檢視在阿姆斯特丹、加州和倫敦舉辦的AI & Big Data Expo。這個全面的活動與其他領先活動如Intelligent Automation ConferenceBlockXDigital Transformation WeekCyber Security & Cloud Expo同時舉辦。

在這裡探索由TechForge提供的其他即將到來的企業技術活動和網路研討會連結

本文最初發表於AI News

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論