Mô hình AI nguồn mở mới cạnh tranh với hiệu suất của DeepSeek—với ít dữ liệu đào tạo hơn nhiều

avatar
Decrypt
02-13
Bài viết này được dịch máy
Xem bản gốc

Một nhóm các nhà nghiên cứu quốc tế từ các trường đại học và công ty công nghệ hàng đầu đã lật đổ bức tranh về khả năng lý luận AI vào thứ Tư với một mô hình mới khớp với - và thỉnh thoảng vượt qua - một trong những hệ thống AI tinh vi nhất của Trung Quốc: DeepSeek.

OpenThinker-32B, được phát triển bởi liên minh Open Thoughts, đạt được điểm chính xác 90,6% trên thước đo MATH500, vượt qua DeepSeek với 89,4%.

Mô hình này cũng vượt trội hơn DeepSeek trong các nhiệm vụ giải quyết vấn đề chung, đạt điểm 61,6 trên thước đo GPQA-Diamond so với 57,6 của DeepSeek. Trên thước đo LCBv2, nó đạt 68,9, cho thấy hiệu suất mạnh mẽ trong các kịch bản kiểm tra đa dạng.

Nói cách khác, nó tốt hơn một phiên bản tương tự kích thước của DeepSeek R1 trong kiến thức khoa học chung (GPQA-Diamond). Nó cũng đánh bại DeepSeek ở MATH500 trong khi thua ở các thước đo AIME - cả hai đều cố gắng đo trình độ toán học.

Nó cũng kém hơn một chút so với DeepSeek trong lập trình, đạt 68,9 điểm so với 71,2, nhưng do mô hình này là mã nguồn mở, tất cả các điểm số này có thể được cải thiện đáng kể một khi mọi người bắt đầu cải thiện nó.

Điều làm nổi bật thành tựu này là tính hiệu quả của nó: OpenThinker chỉ cần 114.000 ví dụ đào tạo để đạt được những kết quả này, trong khi DeepSeek sử dụng 800.000.

Tập dữ liệu OpenThoughts-114k đi kèm với siêu dữ liệu chi tiết cho mỗi vấn đề: các giải pháp chân lý, các trường hợp kiểm tra cho các vấn đề mã hóa, mã khởi động khi cần thiết và thông tin cụ thể về lĩnh vực.

Khung Curator tùy chỉnh của nó đã xác thực các giải pháp mã hóa so với các trường hợp kiểm tra, trong khi một trọng tài AI xử lý xác minh toán học.

Nhóm báo cáo đã sử dụng bốn nút được trang bị tám GPU H100, hoàn thành trong khoảng 90 giờ. Một tập dữ liệu riêng biệt với 137.000 mẫu chưa được xác minh, được đào tạo trên Siêu máy tính Leonardo của Ý, đã tiêu tốn 11.520 giờ A100 chỉ trong 30 giờ.

"Xác minh phục vụ để duy trì chất lượng trong khi mở rộng tính đa dạng và kích thước của các lời nhắc đào tạo," nhóm đã ghi chú trong tài liệu của họ. Nghiên cứu cho thấy ngay cả các phiên bản chưa được xác minh cũng hoạt động tốt, mặc dù chúng không đạt được kết quả đỉnh điểm của mô hình được xác minh.

Mô hình này được xây dựng dựa trên LLM Qwen2.5-32B-Instruct của Alibaba và hỗ trợ một cửa sổ ngữ cảnh 16.000 Bit, đủ để xử lý các bằng chứng toán học phức tạp và các vấn đề mã hóa dài, nhưng ít hơn nhiều so với các tiêu chuẩn hiện tại.

Bản phát hành này đến giữa cuộc cạnh tranh gay gắt trong khả năng lý luận AI, điều này dường như đang diễn ra với tốc độ của suy nghĩ. OpenAI đã thông báo vào ngày 12 tháng 2 rằng tất cả các mô hình sau GPT-5 sẽ có khả năng lý luận. Một ngày sau đó, Elon Musk đã thổi phồng khả năng giải quyết vấn đề nâng cao của Grok-3 của xAI, hứa hẹn nó sẽ là mô hình lý luận tốt nhất đến nay, và chỉ vài giờ trước đó, Nous Research đã phát hành một mô hình lý luận nguồn mở khác, DeepHermes, dựa trên Llama 3.1 của Meta.

Lĩnh vực này đã nhận được đà sau khi DeepSeek chứng minh được hiệu suất tương đương với o1 của OpenAI với chi phí thấp hơn đáng kể. DeepSeek R1 có thể tải xuống, sử dụng và chỉnh sửa miễn phí, với các kỹ thuật đào tạo cũng được tiết lộ.

Tuy nhiên, khác với Open Thoughts, những người đã quyết định mã nguồn mở mọi thứ, nhóm phát triển DeepSeek đã giữ dữ liệu đào tạo của họ riêng tư.

Sự khác biệt then chốt này có nghĩa là các nhà phát triển có thể dễ dàng hơn trong việc hiểu OpenThinker và tái tạo kết quả của nó từ đầu so với DeepSeek vì họ có quyền truy cập vào tất cả các mảnh của câu đố.

Đối với cộng đồng AI rộng lớn, bản phát hành này một lần nữa chứng minh tính khả thi của việc xây dựng các mô hình cạnh tranh mà không cần các tập dữ liệu độc quyền khổng lồ. Ngoài ra, nó có thể là một đối thủ đáng tin cậy hơn cho các nhà phát triển phương Tây vẫn còn do dự về việc sử dụng một mô hình Trung Quốc - dù là mã nguồn mở hay không.

OpenThinker có sẵn để tải xuống tại HuggingFace. Một mô hình 7B tham số nhỏ hơn và ít mạnh hơn cũng có sẵn cho các thiết bị cấp thấp hơn.

Nhóm Open Thoughts đã tập hợp các nhà nghiên cứu từ các trường đại học Mỹ khác nhau, bao gồm Stanford, Berkeley và UCLA, cùng với Trung tâm Siêu máy tính Juelich của Đức. Viện Nghiên cứu Toyota của Mỹ và các nhà chơi khác trong cảnh giới AI của EU cũng ủng hộ nó.

Được chỉnh sửa bởi Josh QuittnerSebastian Sinclair

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
1
Bình luận
Followin logo