Qwen 2.5-Max vượt trội hơn DeepSeek V3 trong một số điểm chuẩn

01-29

Bài viết này được dịch máy

Xem bản gốc

Phản ứng của Alibaba đối với DeepSeek là Qwen 2.5-Max, mô hình quy mô lớn Mixture-of-Experts (MoE) mới nhất của công ty.

Qwen 2.5-Max khoe về việc tiền huấn luyện trên hơn 20 nghìn tỷ Token và tinh chỉnh thông qua các kỹ thuật tiên tiến như Supervised Fine-Tuning (SFT) và Reinforcement Learning from Human Feedback (RLHF).

Với API hiện có thông qua Alibaba Cloud và mô hình có thể truy cập để khám phá thông qua Qwen Chat, tập đoàn công nghệ Trung Quốc này đang mời các nhà phát triển và nhà nghiên cứu xem các bước đột phá của họ trực tiếp.

Vượt trội hơn các đối thủ

Khi so sánh hiệu suất của Qwen 2.5-Max với một số mô hình AI nổi bật nhất trên nhiều bộ tiêu chuẩn, kết quả rất đáng khích lệ.

Các đánh giá bao gồm các chỉ số phổ biến như MMLU-Pro cho giải quyết vấn đề cấp đại học, LiveCodeBench cho chuyên môn lập trình, LiveBench cho khả năng tổng thể và Arena-Hard để đánh giá các mô hình so với sở thích của con người.

Theo Alibaba, "Qwen 2.5-Max vượt trội hơn DeepSeek V3 trong các bộ tiêu chuẩn như Arena-Hard, LiveBench, LiveCodeBench và GPQA-Diamond, đồng thời cũng thể hiện kết quả cạnh tranh trong các đánh giá khác, bao gồm MMLU-Pro."

So sánh hiệu suất của mô hình AI Qwen 2.5-Max của Alibaba với các mô hình trí tuệ nhân tạo khác như DeepSeek V3. — *(Tín dụng: Alibaba)*

Mô hình hướng dẫn - được thiết kế cho các nhiệm vụ phía sau như trò chuyện và lập trình - cạnh tranh trực tiếp với các mô hình hàng đầu như GPT-4o, Claude-3.5-Sonnet và DeepSeek V3. Trong số này, Qwen 2.5-Max đã vượt trội hơn các đối thủ cạnh tranh trong một số lĩnh vực then chốt.

So sánh các mô hình cơ sở cũng mang lại kết quả đáng khích lệ. Trong khi các mô hình độc quyền như GPT-4o và Claude-3.5-Sonnet vẫn nằm ngoài tầm với do hạn chế về quyền truy cập, Qwen 2.5-Max đã được đánh giá so với các lựa chọn công khai hàng đầu như DeepSeek V3, Llama-3.1-405B (mô hình mật độ lớn mở rộng nhất) và Qwen2.5-72B. Một lần nữa, tân binh của Alibaba đã thể hiện hiệu suất nổi trội trên toàn bộ các bộ tiêu chuẩn.

"Các mô hình cơ sở của chúng tôi đã thể hiện những ưu thế đáng kể trên hầu hết các bộ tiêu chuẩn," Alibaba tuyên bố, "và chúng tôi lạc quan rằng các tiến bộ trong các kỹ thuật sau huấn luyện sẽ nâng phiên bản tiếp theo của Qwen 2.5-Max lên những tầm cao mới."

Sự bùng nổ của DeepSeek V3 đã thu hút sự chú ý của toàn bộ cộng đồng AI đến các mô hình MoE quy mô lớn. Đồng thời, chúng tôi đã xây dựng Qwen2.5-Max, một LLM MoE lớn được tiền huấn luyện trên dữ liệu khổng lồ và sau huấn luyện với các công thức SFT và RLHF được chọn lọc. Nó đạt được kết quả cạnh tranh... pic.twitter.com/oHVl16vfje
— Qwen (@Alibaba_Qwen) Ngày 28 tháng 1 năm 2025

Làm cho Qwen 2.5-Max dễ tiếp cận hơn

Để làm cho mô hình này dễ tiếp cận hơn với cộng đồng toàn cầu, Alibaba đã tích hợp Qwen 2.5-Max với nền tảng Qwen Chat của họ, nơi người dùng có thể tương tác trực tiếp với mô hình trong các khả năng khác nhau - dù là khám phá khả năng tìm kiếm của nó hay kiểm tra sự hiểu biết của nó về các truy vấn phức tạp.

Đối với các nhà phát triển, API của Qwen 2.5-Max hiện có sẵn thông qua Alibaba Cloud với tên mô hình "qwen-max-2025-01-25". Người dùng quan tâm có thể bắt đầu bằng cách đăng ký tài khoản Alibaba Cloud, kích hoạt dịch vụ Model Studio và tạo khóa API.

API này thậm chí còn tương thích với hệ sinh thái của OpenAI, giúp tích hợp dễ dàng hơn cho các dự án và quy trình công việc hiện có. Tính tương thích này giảm rào cản cho những người mong muốn thử nghiệm các ứng dụng của họ với khả năng của mô hình.

Alibaba đã đưa ra tuyên bố mạnh mẽ về ý định với Qwen 2.5-Max. Cam kết liên tục của công ty trong việc mở rộng quy mô các mô hình AI không chỉ là về việc cải thiện các tiêu chuẩn hiệu suất mà còn về việc nâng cao các khả năng tư duy và lập luận cơ bản của các hệ thống này.

"Việc mở rộng dữ liệu và kích thước mô hình không chỉ thể hiện những tiến bộ trong trí thông minh của mô hình mà còn phản ánh cam kết không lay chuyển của chúng tôi trong việc tiên phong nghiên cứu," Alibaba lưu ý.

Nhìn về phía trước, nhóm này nhằm mục tiêu mở rộng ranh giới của học tập củng cố để thúc đẩy các kỹ năng lập luận tiên tiến hơn nữa. Điều này, họ nói, có thể cho phép các mô hình của họ không chỉ khớp với mà còn vượt qua trí thông minh của con người trong việc giải quyết các vấn đề phức tạp.

Những hàm ý đối với ngành công nghiệp có thể rất sâu sắc. Khi các phương pháp mở rộng cải thiện và các mô hình Qwen phá vỡ những ranh giới mới, chúng ta có thể thấy những rung động tiếp theo trên toàn cầu trong các lĩnh vực được thúc đẩy bởi AI như những gì chúng ta đã chứng kiến trong những tuần gần đây.

(Ảnh bởi Maico Amorim)

Xem thêm: ChatGPT Gov nhằm hiện đại hóa các cơ quan chính phủ Hoa Kỳ

Muốn tìm hiểu thêm về trí tuệ nhân tạo và dữ liệu lớn từ các nhà lãnh đạo ngành? Hãy kiểm tra AI & Big Data Expo diễn ra tại Amsterdam, California và London. Sự kiện toàn diện này được tổ chức đồng thời với các sự kiện hàng đầu khác bao gồm Intelligent Automation Conference, BlockX, Digital Transformation Week và Cyber Security & Cloud Expo.

Khám phá các sự kiện công nghệ doanh nghiệp sắp tới và các webinar khác được cung cấp bởi TechForge tại đây.

Bài viết Qwen 2.5-Max vượt trội hơn DeepSeek V3 trong một số bộ tiêu chuẩn đã xuất hiện lần đầu trên AI News.

Khu vực:

Quản Trị

Hệ Sinh Thái Linea

Hợp Đồng Thông Minh

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan