Nhóm Qwen tại Alibaba đã giới thiệu QwQ-32B, một mô hình AI với 32 tỷ tham số, thể hiện hiệu suất vượt trội so với mô hình lớn hơn nhiều DeepSeek-R1. Bước đột phá này nổi bật tiềm năng của việc mở rộng Học Tăng Cường (RL) trên các mô hình nền tảng vững chắc.
Nhóm Qwen đã thành công trong việc tích hợp khả năng tác nhân vào mô hình lý luận, cho phép nó suy nghĩ một cách phê phán, sử dụng các công cụ và điều chỉnh lý luận của nó dựa trên phản hồi từ môi trường.
"Mở rộng RL có tiềm năng để nâng cao hiệu suất mô hình vượt qua các phương pháp tiền huấn luyện và hậu huấn luyện truyền thống," nhóm cho biết. "Các nghiên cứu gần đây đã chứng minh rằng RL có thể cải thiện đáng kể khả năng lý luận của các mô hình."
QwQ-32B đạt hiệu suất tương đương với DeepSeek-R1, có 671 tỷ tham số (với 37 tỷ được kích hoạt), chứng minh tính hiệu quả của RL khi áp dụng cho các mô hình nền tảng vững chắc được tiền huấn luyện trên kiến thức thế giới rộng lớn. Kết quả đáng chú ý này nhấn mạnh tiềm năng của RL trong việc thu hẹp khoảng cách giữa kích thước mô hình và hiệu suất.
Mô hình này đã được đánh giá trên nhiều bộ tiêu chuẩn, bao gồm AIME24, LiveCodeBench, LiveBench, IFEval và BFCL, được thiết kế để đánh giá khả năng lý luận toán học, trình độ lập trình và khả năng giải quyết vấn đề chung của nó.
Kết quả nổi bật hiệu suất của QwQ-32B so với các mô hình hàng đầu khác, bao gồm DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini và DeepSeek-R1 gốc.
Kết quả bộ tiêu chuẩn:
- AIME24: QwQ-32B đạt 79,5, hơi thấp hơn DeepSeek-R1-6718 với 79,8, nhưng vượt trội so với OpenAl-o1-mini với 63,6 và các mô hình được giảm.
- LiveCodeBench: QwQ-32B đạt 63,4, lại gần với DeepSeek-R1-6718 với 65,9, và vượt qua các mô hình được giảm và OpenAl-o1-mini với 53,8.
- LiveBench: QwQ-32B đạt 73,1, với DeepSeek-R1-6718 đạt 71,6, và vượt trội so với các mô hình được giảm và OpenAl-o1-mini với 57,5.
- IFEval: QwQ-32B đạt 83,9, rất gần với DeepSeek-R1-6718 với 83,3, và dẫn đầu các mô hình được giảm và OpenAl-o1-mini với 59,1.
- BFCL: QwQ-32B đạt 66,4, với DeepSeek-R1-6718 đạt 62,8, chứng tỏ sự dẫn đầu so với các mô hình được giảm và OpenAl-o1-mini với 49,3.
Phương pháp của nhóm Qwen bao gồm một điểm khởi đầu lạnh và một quá trình RL nhiều giai đoạn được thúc đẩy bởi các phần thưởng dựa trên kết quả. Giai đoạn ban đầu tập trung vào việc mở rộng RL cho các nhiệm vụ toán học và lập trình, sử dụng các bộ xác minh độ chính xác và máy chủ thực thi mã. Giai đoạn thứ hai mở rộng sang các khả năng chung, bao gồm các phần thưởng từ các mô hình phần thưởng chung và các bộ xác minh dựa trên quy tắc.
"Chúng tôi thấy rằng giai đoạn này của huấn luyện RL với một số bước nhỏ có thể tăng hiệu suất của các khả năng chung khác, chẳng hạn như tuân theo hướng dẫn, căn chỉnh với sở thích của con người và hiệu suất tác nhân, mà không có sự sụt giảm đáng kể về toán học và lập trình," nhóm giải thích.
QwQ-32B là mô hình có trọng lượng mở và có sẵn trên Hugging Face và ModelScope theo giấy phép Apache 2.0, và cũng có thể truy cập thông qua Qwen Chat. Nhóm Qwen coi đây là bước đầu tiên trong việc mở rộng RL để tăng cường khả năng lý luận và nhằm tiếp tục khám phá việc tích hợp các tác nhân với RL cho lý luận tầm xa.
"Khi chúng tôi hướng tới việc phát triển thế hệ Qwen tiếp theo, chúng tôi tự tin rằng việc kết hợp các mô hình nền tảng mạnh mẽ hơn với RL được thúc đẩy bởi các nguồn tài nguyên tính toán mở rộng sẽ đưa chúng tôi lại gần hơn với việc đạt được Trí Tuệ Nhân Tạo Tổng Quát (AGI)," nhóm cho biết.
Xem thêm: Deepgram Nova-3 Medical: Mô hình AI phát âm trong lĩnh vực y tế giảm lỗi chuyển văn bản

Muốn tìm hiểu thêm về AI và dữ liệu lớn từ các nhà lãnh đạo trong ngành? Hãy kiểm tra AI & Big Data Expo diễn ra tại Amsterdam, California và London. Sự kiện toàn diện này được tổ chức đồng thời với các sự kiện hàng đầu khác bao gồm Intelligent Automation Conference, BlockX, Digital Transformation Week và Cyber Security & Cloud Expo.
Khám phá các sự kiện công nghệ doanh nghiệp sắp tới và các webinar khác do TechForge cung cấp tại đây.
Bài viết Alibaba Qwen QwQ-32B: Bước trình diễn học tăng cường mở rộng được đăng lần đầu trên AI News.