[Giới thiệu] DreamPRM được phát triển bởi một đội ngũ nghiên cứu tại Đại học California, San Diego và đã giành vị trí đầu tiên trong danh sách đánh giá lý luận toán học có thẩm quyền của MMMU.
Trong những năm gần đây, các mô hình ngôn ngữ lớn (LLM) đã đạt được những tiến bộ đáng kể về khả năng lập luận. Việc giới trong đóMô hình Phần thưởng Quy trình (PRM) cho phép mô hình nhận được sự giám sát ở các bước trung gian của chuỗi lập luận, từ đó lựa chọn các hướng giải quyết vấn đề hợp lý hơn.
Phương pháp này đã đạt được kết quả tốt trong nhiệm vụ lý luận văn bản, nhưng chúng vẫn phải đối mặt với hai thách thức nổi bật khi mở rộngsang các tình huống đa phương thức :
- Sự thay đổi phân phối : Không gian đầu vào đa phương thức rất lớn và phân phối đào tạo và suy luận thường khác nhau đáng kể.
- Chất lượng dữ liệu không đồng đều : Các tập dữ liệu đào tạo quy mô lớn chắc chắn chứa các mẫu nhiễu hoặc chất lượng thấp, làm giảm tín hiệu giám sát hiệu quả.
Do đó, làm thế nào để sử dụng hiệu quả các mẫu chất lượng cao trong lập luận đa phương thức và ngăn chặn tác động tiêu cực của các mẫu nhiễu đã trở thành một vấn đề cấp bách cần được giải quyết.
Để giải quyết vấn đề này, các nhà nghiên cứu đã thiết kế một khuôn khổ đào tạo mới sử dụng khuôn khổ tối ưu hóa hai lớp để sử dụng tỷ trọng của các mẫu dữ liệu (Trọng số trường hợp) làm tham số có thể học được để thay đổi động tác động của các mẫu dữ liệu trong quá trình đào tạo.
Địa chỉ bài báo: https://arxiv.org/abs/2509.05542
Địa chỉ mã: https://github.com/coder-qicao/DreamPRM-1.5
Bảng xếp hạng MMMU
Tác giả đầu tiên của bài báo là nghiên cứu sinh tiến sĩ Qi Cao, và tác giả liên hệ là Phó Giáo sư Pengtao Xie của trường.
Từ DreamPRM đến DreamPRM-1.5, từ "trọng số miền" đến "trọng số mẫu"
Trước đây, các nhà nghiên cứu đã đề xuất khuôn khổ DreamPRM , phân bổ tỷ trọng giữa các tập dữ liệu khác nhau thông qua việc điều chỉnh lại trọng số miền để cải thiện kết quả đào tạo.
Trên cơ sở này, DreamPRM-1.5 tiếp tục tinh chỉnh mức độ chi tiết có trọng số thành một mẫu đào tạo duy nhất :
- Các mẫu chất lượng cao sẽ được tỷ trọng cao hơn;
- Các mẫu chất lượng thấp hoặc có nhiễu tỷ trọng.
Chiến lược đánh giá lại theo cấp độ trường hợp này cho phép mô hình khám phá đầy đủ giá trị tiềm năng của từng dữ liệu.
Hai phương pháp: Bảng thể hiện và Mạng thể hiện
Hai kiến trúc mô hình của DreamPRM1.5
Để đạt được “trọng số cấp độ mẫu”, các nhà nghiên cứu đã thiết kế hai chương trình bổ sung:
Bảng phiên bản
Cung cấp cho mỗi mẫu đào tạo một tham số tỷ trọng độc lập;
Tính linh hoạt cao, đặc biệt phù hợp với các tập dữ liệu quy mô nhỏ;
Nhược điểm là số lượng tham số liên quan đến số lượng mẫu và khó có thể hỗ trợ khi dữ liệu lớn.
Mạng lưới phiên bản
Thay vì lưu trữ dữ liệu trực tiếp trong bảng, một mạng MLP nhỏ được sử dụng để dự đoán tỷ trọng của từng dữ liệu .
Số lượng tham số là cố định và không bị giới hạn bởi kích thước dữ liệu;
Phù hợp hơn cho việc đào tạo quy mô lớn và khả năng khái quát hóa mạnh mẽ hơn.
Giống như hai cách ghi chép bài học: Instance Table giống như viết bình luận cho mỗi câu hỏi; Instance Net giống như tóm tắt một bộ quy tắc để "chấm điểm câu hỏi dựa trên câu trả lời".
Cốt lõi của phương pháp: Tối ưu hóa hai cấp
Quá trình đào tạo của DreamPRM-1.5 áp dụng khuôn khổ tối ưu hóa hai lớp :
Tối ưu hóa lớp dưới: Cập nhật PRM bằng cách sử dụng tỷ trọng mẫu:
Tối ưu hóa cấp cao: Đánh giá hiệu suất suy luận trên dữ liệu siêu dữ liệu và cập nhật tỷ trọng mẫu một cách linh hoạt dựa trên phản hồi:
Thiết kế này đảm bảo rằng việc học tỷ trọng không phải là một thiết lập tĩnh, mà được thúc đẩy bởi các hiệu ứng suy luận và điều chỉnh động, do đó tăng cường khả năng thích ứng của mô hình trong nhiệm vụ phức tạp.
Mô hình phần thưởng tạo ra, cơ chế chấm điểm cho quá trình lý luận
Trong DreamPRM-1.5, các nhà nghiên cứu đã sử dụng mô hình phần thưởng sinh sản để chấm điểm từng bước trong quá trình suy luận. Ý tưởng cốt lõi của nó là:
- Phương pháp chấm điểm : Mô hình đưa ra dấu "+" hoặc "-" ở mỗi bước, cho biết lý luận ở bước đó có hợp lý hay không;
- Cơ chế chấm điểm : Tính toán xác suất "+" thông qua softmax và sử dụng nó làm độ tin cậy của bước này;
- Chiến lược tổng hợp : Tổng hợp (trung bình) điểm bước của toàn bộ Chuỗi lý luận và so sánh chúng với câu trả lời chuẩn để hướng dẫn cập nhật tỷ trọng mẫu.
Ưu điểm của thiết kế này là nó không chỉ đánh giá tính hợp lý của chuỗi lý luận từng bước mà còn cung cấp các tín hiệu chi tiết hơn, ví dụ như việc cân nhắc lại .
Chi tiết thiết kế và triển khai thử nghiệm
Mô hình cơ sở : InternVL3-1B được sử dụng làm mô hình cơ bản của PRM và được thử nghiệm dựa trên GPT-5-mini trong giai đoạn suy luận.
Dữ liệu đào tạo : Dữ liệu mẫu có kích thước khác nhau (12k, 100k) từ VisualPRM-400k để đào tạo Bảng Instance và Mạng Instance tương ứng
Bộ siêu dữ liệu: Sử dụng phân tách chuẩn của MMMU-Pro (chỉ sử dụng dữ liệu bộ thử nghiệm để tránh chồng chéo với bộ xác thực) để tạo Chuỗi suy luận ứng viên làm bộ siêu dữ liệu để cập nhật tỷ trọng.
Quy trình đào tạo :
Khởi động nguội: Đầu tiên, thực hiện tinh chỉnh có giám sát (20k mẫu) để cho phép mô hình xuất ra đánh dấu"+/-" một cách ổn định;
Tối ưu hóa hai lớp: 100 nghìn bước lặp được thực hiện trên cơ sở này, sử dụng trình tối ưu hóa AdamW và lập lịch tốc độ học cosin.
Tài nguyên máy tính : Một card NVIDIA A100, đào tạo hoàn thành trong khoảng 72 giờ
Kết quả thử nghiệm trên chuẩn MMMU
Các nhà nghiên cứu đã đánh giá phương pháp của họ một cách có hệ thống dựa trên chuẩn mực MMMU (Hiểu biết đa phương thức đa ngành) .
Bài kiểm tra chuẩn này bao gồm 30 chuyên ngành và 183 lĩnh vực nhỏ, với các loại câu hỏi bao gồm các dữ liệu đầu vào đa phương thức như biểu đồ, bản đồ và cấu trúc hóa học. Đây là một trong những bài kiểm tra lập luận khó nhất hiện nay.
Kết quả chính
GPT-5-mini có suy nghĩ (cơ bản): 80,0%
DreamPRM-1.5 (Bảng phiên bản): 84,6% (+4,6)
DreamPRM-1.5 (Tỷ lệ thực tế): 83,6% (+3,6)
Phân tích so sánh
Không có lựa chọn : Sử dụng cùng dữ liệu mà không cân nhắc lại, chỉ thu được 79,1% kết quả, điều này xác minh tầm quan trọng của việc cân nhắc theo trường hợp.
VisualPRM : Mặc dù sử dụng toàn bộ dữ liệu 400k, nhưng nó chỉ đạt 80,5%, cho thấy kích thước dữ liệu không thể bù đắp hoàn toàn cho sự khác biệt về chất lượng;
Tính nhất quán : Phương pháp đo thời gian thử nghiệm cổ điển là 81,4%, vẫn thấp hơn DreamPRM-1.5.
Nhìn chung, DreamPRM-1.5 không chỉ vượt qua đáng kể so với nhiều tiêu chuẩn cơ sở mạnh dựa trên GPT-5-mini mà còn vượt trội hơn các mô hình nguồn đóng hàng đầu như GPT-5 (84,2%) và Gemini 2.5 Pro Deep-Think (84,0%) về độ chính xác.
Kết luận và triển vọng
DreamPRM-1.5 giới thiệu việc cân nhắc lại cấp độ phiên bản vào quá trình đào tạo lý luận đa phương thức, điều chỉnh tỷ trọng mẫu một cách linh hoạt thông qua tối ưu hóa hai lớp, cho phép mô hình nhận dạng và sử dụng dữ liệu chất lượng cao tốt hơn.
Những đóng góp chính là:
- Đề xuất một khuôn khổ đánh giá lại trọng số ở cấp độ thể hiện , phá vỡ giới hạn chỉ đánh giá ở cấp độ miền;
- Thiết kế hai triển khai bổ sung cho nhau: Instance Table và Instance Net , đáp ứng cả các tình huống đào tạo quy mô nhỏ và quy mô lớn.
- Đạt được kết quả SOTA mới trên chuẩn MMMU , vượt qua nhiều mô hình nguồn đóng lớn.
Kết quả này cho thấy việc sử dụng chất lượng dữ liệu một cách tinh tế cũng là một khía cạnh quan trọng đáng được chú ý trong nghiên cứu mô hình suy luận trong tương lai.
Phương pháp đánh giá trọng số mẫu thông minh hơn và phương pháp chấm điểm quy trình được kỳ vọng sẽ trở thành hướng đi chính để thúc đẩy sự phát triển hơn nữa của lý luận đa phương thức.
Tham khảo:
https://arxiv.org/abs/2505.20241v2
Bài viết này được trích từ tài khoản công khai WeChat "Xinzhiyuan" , do LRST biên tập và được 36Kr xuất bản với sự cho phép.