Ai2 đang phát hành OLMo 2, một gia đình các mô hình ngôn ngữ mã nguồn mở tiến bộ trong việc dân chủ hóa trí tuệ nhân tạo và thu hẹp khoảng cách giữa các giải pháp mã nguồn mở và độc quyền.
Các mô hình mới, có sẵn trong các phiên bản 7B và 13B tham số, được đào tạo trên tối đa 5 nghìn tỷ token và thể hiện mức độ hiệu suất khớp hoặc vượt qua các mô hình mã nguồn mở hoàn toàn tương đương trong khi vẫn cạnh tranh với các mô hình trọng lượng mở như Llama 3.1 trên các tiêu chuẩn học thuật tiếng Anh.
"Kể từ khi phát hành OLMo đầu tiên vào tháng 2 năm 2024, chúng tôi đã chứng kiến sự tăng trưởng nhanh chóng trong hệ sinh thái mô hình ngôn ngữ mã nguồn mở và thu hẹp khoảng cách về hiệu suất giữa các mô hình mã nguồn mở và độc quyền," Ai2 giải thích.
Nhóm phát triển đã đạt được những cải tiến này thông qua một số đổi mới, bao gồm các biện pháp ổn định đào tạo nâng cao, các phương pháp đào tạo theo giai đoạn và các phương pháp sau đào tạo tiên tiến được rút ra từ khung Tülu 3 của họ. Những cải tiến kỹ thuật đáng chú ý bao gồm việc chuyển từ lớp chuẩn không tham số sang RMSNorm và việc triển khai nhúng vị trí xoay.
Bước đột phá trong việc đào tạo mô hình OLMo 2
Quá trình đào tạo sử dụng một phương pháp tiếp cận hai giai đoạn tinh vi. Giai đoạn ban đầu sử dụng tập dữ liệu OLMo-Mix-1124 khoảng 3,9 nghìn tỷ token, được lấy từ DCLM, Dolma, Starcoder và Proof Pile II. Giai đoạn thứ hai kết hợp một hỗn hợp cẩn thận được lựa chọn của dữ liệu web chất lượng cao và nội dung cụ thể về lĩnh vực thông qua tập dữ liệu Dolmino-Mix-1124.
Đáng chú ý đặc biệt là biến thể OLMo 2-Instruct-13B, đây là mô hình mạnh nhất trong chuỗi. Mô hình này thể hiện hiệu suất vượt trội so với các mô hình Qwen 2.5 14B instruct, Tülu 3 8B và Llama 3.1 8B instruct trên các tiêu chuẩn khác nhau.
Cam kết với khoa học mã nguồn mở
Khẳng định cam kết của mình với khoa học mã nguồn mở, Ai2 đã phát hành tài liệu toàn diện bao gồm trọng lượng, dữ liệu, mã, công thức, các điểm kiểm tra trung gian và các mô hình được điều chỉnh theo hướng dẫn. Tính minh bạch này cho phép cộng đồng trí tuệ nhân tạo rộng rãi kiểm tra và tái tạo kết quả.
Bản phát hành cũng giới thiệu một khung đánh giá được gọi là OLMES (Hệ thống Đánh giá Mô hình Ngôn ngữ Mã nguồn mở), bao gồm 20 tiêu chuẩn được thiết kế để đánh giá các khả năng cốt lõi như truy xuất kiến thức, lập luận thông thường và lập luận toán học.
OLMo 2 nâng cao tiêu chuẩn trong phát triển trí tuệ nhân tạo mã nguồn mở, có thể làm tăng tốc độ đổi mới trong lĩnh vực này trong khi duy trì tính minh bạch và khả năng tiếp cận.
(Ảnh bởi Rick Barrett)
Xem thêm: OpenAI nâng cao an toàn trí tuệ nhân tạo với các phương pháp đội quân đỏ mới
Muốn tìm hiểu thêm về trí tuệ nhân tạo và dữ liệu lớn từ các nhà lãnh đạo trong ngành? Hãy kiểm tra AI & Big Data Expo diễn ra tại Amsterdam, California và London. Sự kiện toàn diện này được tổ chức đồng thời với các sự kiện hàng đầu khác bao gồm Intelligent Automation Conference, BlockX, Digital Transformation Week và Cyber Security & Cloud Expo.
Khám phá các sự kiện công nghệ doanh nghiệp sắp tới và các webinar khác được cung cấp bởi TechForge tại đây.
Bài đăng Ai2 OLMo 2: Nâng cao tiêu chuẩn cho các mô hình ngôn ngữ mã nguồn mở đầu tiên xuất hiện trên AI News.