Alibaba Marco-o1: Nâng cao khả năng lý luận LLM

avatar
AI News
11-29
Bài viết này được dịch máy
Xem bản gốc

Alibaba đã công bố Marco-o1, một mô hình ngôn ngữ lớn (LLM) được thiết kế để giải quyết cả các nhiệm vụ giải quyết vấn đề truyền thống và mở rộng.

Marco-o1, từ nhóm MarcoPolo của Alibaba, đại diện cho một bước tiến khác trong khả năng của trí tuệ nhân tạo để xử lý các thách thức lập luận phức tạp - đặc biệt là trong toán học, vật lý, lập trình và các lĩnh vực nơi các tiêu chuẩn rõ ràng có thể vắng mặt.

Dựa trên các bước tiến về lập luận của OpenAI với mô hình o1 của nó, Marco-o1 phân biệt bản thân bằng cách kết hợp nhiều kỹ thuật tiên tiến, bao gồm cả việc tinh chỉnh Chuỗi-của-Suy nghĩ (CoT), Tìm kiếm Cây Monte Carlo (MCTS) và các cơ chế phản hồi mới. Các thành phần này hoạt động phối hợp để tăng cường khả năng giải quyết vấn đề của mô hình trong các lĩnh vực khác nhau.

Nhóm phát triển đã thực hiện một chiến lược tinh chỉnh toàn diện bằng cách sử dụng nhiều tập dữ liệu, bao gồm một phiên bản được lọc của Tập dữ liệu CoT Open-O1, Tập dữ liệu CoT Marco-o1 tổng hợp và Tập dữ liệu Hướng dẫn Marco chuyên biệt. Tổng thể, kho dữ liệu đào tạo bao gồm hơn 60.000 mẫu được chọn lọc cẩn thận.

Mô hình đã thể hiện kết quả đặc biệt ấn tượng trong các ứng dụng đa ngôn ngữ. Trong quá trình kiểm tra, Marco-o1 đạt được cải thiện độ chính xác đáng kể là 6,17% trên tập dữ liệu MGSM tiếng Anh và 5,60% trên đối tác tiếng Trung của nó. Mô hình đã thể hiện sức mạnh đặc biệt trong các nhiệm vụ dịch thuật, đặc biệt là khi xử lý các biểu hiện thông tục và các tinh tế văn hóa.

Một trong những tính năng sáng tạo nhất của mô hình là việc thực hiện các mức độ hành động khác nhau trong khuôn khổ MCTS. Cách tiếp cận này cho phép mô hình khám phá các con đường lập luận ở các mức độ chi tiết khác nhau, từ các bước rộng lớn đến "các bước nhỏ" chính xác hơn với 32 hoặc 64 token. Nhóm cũng đã giới thiệu một cơ chế phản hồi khiến mô hình tự đánh giá và xem xét lại lập luận của mình, dẫn đến độ chính xác được cải thiện trong các kịch bản giải quyết vấn đề phức tạp.

Việc tích hợp MCTS đã chứng minh là đặc biệt hiệu quả, với tất cả các phiên bản mô hình được tăng cường MCTS đều cho thấy cải thiện đáng kể so với phiên bản Marco-o1-CoT cơ bản. Các thí nghiệm của nhóm với các mức độ hành động khác nhau đã tiết lộ những mẫu hình thú vị, mặc dù họ lưu ý rằng việc xác định chiến lược tối ưu yêu cầu nghiên cứu thêm và các mô hình phần thưởng chính xác hơn.

Benchmark comparison of the latest Marco-o1 LLM model with MCTS integration to previous AI models and variations.
(Credit: MarcoPolo Team, AI Business, Alibaba International Digital Commerce)

Nhóm phát triển đã minh bạch về các hạn chế hiện tại của mô hình, thừa nhận rằng mặc dù Marco-o1 thể hiện các đặc tính lập luận mạnh mẽ, nhưng nó vẫn chưa đạt đến mô hình "o1" hoàn chỉnh. Họ nhấn mạnh rằng bản phát hành này đại diện cho một cam kết liên tục cải thiện hơn là một sản phẩm hoàn thiện.

Nhìn về phía trước, nhóm Alibaba đã công bố kế hoạch kết hợp các mô hình phần thưởng, bao gồm Mô hình Phần thưởng Kết quả (ORM) và Mô hình Phần thưởng Quy trình (PRM), để tăng cường khả năng ra quyết định của Marco-o1. Họ cũng đang khám phá các kỹ thuật học tăng cường để tinh chỉnh thêm khả năng giải quyết vấn đề của mô hình.

Mô hình Marco-o1 và các tập dữ liệu liên quan đã được cung cấp cho cộng đồng nghiên cứu thông qua kho lưu trữ GitHub của Alibaba, kèm theo tài liệu toàn diện và hướng dẫn triển khai. Bản phát hành bao gồm hướng dẫn cài đặt và các tập lệnh ví dụ cho cả việc sử dụng trực tiếp mô hình và triển khai thông qua FastAPI.

(Ảnh bởi Alina Grubnyak)

Xem thêm: Các kỹ thuật đào tạo AI mới nhằm vượt qua những thách thức hiện tại

Muốn tìm hiểu thêm về trí tuệ nhân tạo và dữ liệu lớn từ các nhà lãnh đạo ngành? Hãy kiểm tra AI & Big Data Expo diễn ra tại Amsterdam, California và London. Sự kiện toàn diện này được tổ chức đồng thời với các sự kiện hàng đầu khác bao gồm Intelligent Automation Conference, BlockX, Digital Transformation Week, và Cyber Security & Cloud Expo.

Khám phá các sự kiện công nghệ doanh nghiệp sắp tới và các webinar khác được cung cấp bởi TechForge tại đây.

Bài viết Alibaba Marco-o1: Nâng cao khả năng lập luận của LLM đã xuất hiện lần đầu trên AI News.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận