Qwen2.5 lên ngôi vương mã nguồn mở toàn cầu, mẫu 72B đánh bại LIama3 405B và dễ dàng đánh bại GPT-4o-mini

09-19

Bài viết này được dịch máy

Xem bản gốc

Đánh bại LIama3! Qwen2.5 lên ngôi vương mã nguồn mở toàn cầu.

Cái sau vượt qua LIama3 405B ở nhiệm vụ đa tác vụ chỉ bằng 1/5 thang đo tham số.

Hiệu suất của nhiệm vụ khác nhau cũng vượt xa các mẫu máy khác cùng loại.

So với thế hệ trước, nó gần như đã đạt được sự cải thiện toàn diện, đặc biệt là về nhiệm vụ chung, khả năng toán học và mã hóa.

Điều đáng chú ý là Qwen có thể nói là mã nguồn mở mở lớn nhất trong lịch sử . Mô hình cơ bản trực tiếp phát hành 7 mô hình tham số, trong đó sáu hoặc bảy mô hình toán học và mã.

Các mẫu như 14B, 32B và Turbo nhẹ vượt trội hơn GPT-4o-mini.

Ngoại trừ các mô hình 3B và 72B, tất cả các mô hình mã nguồn mở lần đều được cấp phép theo giấy phép Apache 2.0.

Qwen2.5: 0,5B, 1,5B, 3B, 7B, 14B, 32B và 72B

Qwen2.5-Coder: 1.5B, 7B và 32B (đang triển khai)

Qwen2.5-Toán: 1.5B, 7B và 72B.

Thật rực rỡ đến nỗi một số cư dân mạng đã bắt đầu sử dụng nó.

Qwen2.5 72B tương đương với LIama3.1 405B

So với sê-ri Qwen2, sê-ri Qwen2.5 chủ yếu có nâng cấp sau.

Đầu tiên, mã nguồn mở mở hoàn toàn .

Nghiên cứu của họ cho thấy người dùng rất quan tâm đến phạm vi tham số 10B-30B dành cho sản xuất và mô hình tỷ lệ 3B dành cho ứng dụng di động.

Do đó, dựa trên các mô hình mã nguồn mở ban đầu có cùng kích thước (0,5/1,5/7/72B), các mô hình 14B, 32B và 3B cũng đã được thêm vào.

Đồng thời, Tongyi cũng tung ra phiên bản Qwen-Plus và Qwen-Turbo, có thể trải nghiệm thông qua dịch vụ API của nền tảng dịch vụ mô hình lớn Alibaba Cloud.

Có thể thấy, hơn một nửa số mô hình hỗ trợ bối cảnh 128K và có thể tạo ra bối cảnh lên tới 8K.

Trong đánh giá toàn diện của mình, tất cả các model đều đạt được bước nhảy vọt về khả năng so với thế hệ trước, chẳng hạn như Qwen2.5-32B tốt hơn Qwen2-72B và Qwen2.5-14B tốt hơn Qwen2-57B-A14B.

Thứ hai, tập dữ liệu đào tạo trước lớn hơn và chất lượng cao hơn , mở rộng từ 7 nghìn tỷ mã thông báo ban đầu lên tối đa 18 nghìn tỷ mã thông báo.

Sau đó là những cải tiến về khả năng nhiều mặt, chẳng hạn như thu thập thêm kiến thức, khả năng mã hóa toán học và phù hợp hơn với sở thích của con người.

Ngoài ra, đã có những cải tiến đáng kể trong việc theo dõi lệnh, tạo văn bản dài (từ 1k đến hơn 8K mã thông báo), hiểu dữ liệu có cấu trúc (chẳng hạn như bảng) và tạo đầu ra có cấu trúc (đặc biệt là JSON).

Hãy xem nó hoạt động như thế nào.

Hiểu bảng

Tạo đầu ra JSON

Ngoài ra, mô hình Qwen2.5 nhìn chung có khả năng thích ứng tốt hơn với sự đa dạng của các lời nhắc hệ thống, nâng cao khả năng thực hiện nhân vật và thiết lập điều kiện của chatbot.

Sau đó, chúng ta hãy xem xét các khả năng cụ thể của mô hình.

Như đã thấy ở trên, mẫu máy hàng đầu có những cải tiến rõ ràng trong nhiệm vụ khác nhau.

Hiệu suất của các mô hình nhỏ như 0,5B, 1,5B và 3B đại khái như sau:

Đáng chú ý, mô hình Qwen2.5-0.5B hoạt động tốt hơn Gemma2-2.6B trong nhiều nhiệm vụ toán học và mã hóa.

Ngoài ra, Qwen2.5 cũng thể hiện hiệu suất của mô hình sau khi điều chỉnh lệnh. 72B-Instruct vượt qua Llama-3.1-405B lớn hơn trong một số nhiệm vụ chính, đặc biệt là trong toán học (MATH: 83.1), mã hóa (Hiệu suất xuất sắc trong LiveCodeBench: 55.5) và trò chuyện (Arena-Hard: 81.2).

Những loại khác như 32B-Instruct, 14B-Instruct và Qwen2.5-Turbo đã chứng tỏ khả năng tương đương với GPT-4o-mini.

Mã nguồn mở mở lớn nhất trong lịch sử của Qwen

Ngoài các mô hình cơ bản, lần Qwen còn phát hành các mô hình chuyên nghiệp về mã và toán học.

Qwen2.5-Coder cung cấp ba kích cỡ model: phiên bản 1.5B, 7B và 32B (sắp ra mắt).

Có hai cải tiến chính: mở rộng kích thước dữ liệu đào tạo mã và nâng cao khả năng mã hóa.

Qwen2.5-Coder được đào tạo trên dữ liệu mã quy mô lớn hơn, bao gồm mã nguồn, dữ liệu cơ sở mã văn bản và dữ liệu tổng hợp, tổng cộng 5,5 nghìn tỷ mã thông báo.

Nó hỗ trợ 128K ngữ cảnh và bao gồm 92 ngôn ngữ lập trình. Phiên bản mã nguồn mở 7B thậm chí còn vượt qua các mô hình lớn hơn như DeepSeek-Coder-V2-Lite và Codestral để trở thành một trong những mô hình mã cơ bản mạnh mẽ nhất hiện nay.

Về mô hình toán học, Qwen2.5-Math chủ yếu hỗ trợ giải các bài toán tiếng Anh và tiếng Trung thông qua CoT và TIR.

Sê-Ri hình này hiện không được khuyến khích cho nhiệm vụ khác.

Sê-Ri Qwen2.5-Math là mã nguồn mở và bao gồm mô hình cơ bản Qwen2.5-Math-1.5B/7B/72B, mô hình điều chỉnh lệnh Qwen2.5-Math-1.5B/7B/72B-Instruct và mô hình toán học mô hình phần thưởng Qwen2 .5-Math-RM-72B.

Khác với sê-ri Qwen2.5-Math chỉ hỗ trợ sử dụng Chuỗi tư duy (CoT) để giải các bài toán tiếng Anh, sê-ri Qwen2.5-Math mở rộng hỗ trợ sử dụng Chuỗi tư duy và công cụ lý luận tích hợp(TIR) để giải quyết Các bài toán tiếng Trung và tiếng Anh.

So với phiên bản trước, họ chủ yếu làm ba việc này để nâng cấp mẫu cơ bản.

Sử dụng mô hình Qwen2-Math-72B-Instruct để tổng hợp thêm dữ liệu đào tạo toán chất lượng cao.

Thu thập thêm dữ liệu toán học chất lượng cao từ các tài nguyên, sách và mã trực tuyến, đặc biệt là dữ liệu tiếng Trung, qua nhiều khoảng thời gian.

Sử dụng các mô hình cơ bản sê-ri Qwen2.5 để khởi tạo tham số, thể hiện khả năng hiểu ngôn ngữ, tạo mã và suy luận văn bản mạnh mẽ hơn.

Cuối cùng, khả năng được cải thiện. Ví dụ, 1,5B/7B/72B được cải thiện lần lượt 3,4, 12,2 và 19,8 điểm trong câu hỏi và đáp án môn toán thi tuyển sinh đại học.

Được rồi, trên đây là bộ sê-ri mã nguồn mở Qwen2.5 hoàn chỉnh có thể gọi là "lớn nhất trong lịch sử".

Thay vì gọi nó là dâu tây, hãy gọi nó là kiwi.

Lin Junyang, người đứng đầu Mã nguồn mở Alibaba Tongyi, cũng chia sẻ một số chi tiết đằng sau nó.

Đầu tiên anh ấy nói rằng dự án Qwen2.5 bắt đầu vào thời điểm Qwen2 có mã nguồn mở.

Trong quá trình đó, họ nhận ra nhiều vấn đề và sai sót.

Ví dụ, về đào tạo trước, họ chỉ tập trung vào việc nâng cao chất lượng và số lượng dữ liệu trước đào tạo, sử dụng nhiều phương pháp quen thuộc.

Ví dụ: trình phân loại văn bản được sử dụng để gọi lại dữ liệu chất lượng cao và trình ghi điểm LLM được sử dụng để chấm điểm dữ liệu, do đó đạt được sự cân bằng giữa chất lượng và số lượng.

Trong khi tạo các mô hình chuyên gia, đội ngũ cũng sử dụng chúng để tạo dữ liệu tổng hợp.

Trong khóa đào tạo sau này, phản hồi của người dùng đã giúp họ giải quyết từng vấn đề một. Đồng thời, họ cũng khám phá phương pháp RLHF, đặc biệt là phương pháp học trực tuyến.

Về nâng cấp và cập nhật tiếp theo, anh cho biết anh lấy cảm hứng từ o1 và cho rằng khả năng suy luận cần được nghiên cứu chuyên sâu.

Điều đáng nói là khi Qwen 2.5 đang làm nóng trước, đội ngũ của họ tiết lộ rằng nó không được gọi là dâu tây mà là quả kiwi.

Được rồi, bây giờ kiwi có thể được sử dụng nhanh chóng.

Liên kết tham khảo:

[1]https://x.com/JustinLin610/status/1836461575965938104

[2]https://x.com/Alibaba_Qwen/status/1836449414220779584[3]https://qwenlm.github.io/blog/qwen2.5/

[4]https://qwenlm.github.io/blog/qwen2.5-llm/

[5]https://qwenlm.github.io/blog/qwen2.5-code/

[6]https://qwenlm.github.io/blog/qwen2.5-math/

Bài viết này xuất phát từ tài khoản công khai WeChat "Qubit" , tác giả: Bai Xiaojiao, 36 Krypton được xuất bản với sự cho phép.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

ODAILY

3 giờ trước

Báo cáo nghiên cứu vĩ mô thị trường crypto: Trong kỷ nguyên hậu thị trường bò tăng giá, bóng ma của chiến tranh thương mại đang dần phai nhạt và có thể sẽ có sự phục hồi vào nửa cuối năm

深潮TechFlow

5 giờ trước

Bài viết cung cấp thông tin chi tiết về lịch sử của BlackRock: Ông vua quản lý tài sản trị giá 11,5 nghìn tỷ đô la đã ra đời như thế nào?

MarsBit

12 giờ trước

Cục dự trữ liên bang Hoa Kỳ đang thay đổi? Powell cho biết: Quy định về crypto sẽ được nới lỏng, liệu mùa xuân có đang đến với ngành công nghiệp này?