Mô hình thu nhỏ 4B của Nvidia đánh bại GPT-5 Pro, với giá chỉ bằng 1/36.

avatar
36kr
12-08
Bài viết này được dịch máy
Xem bản gốc

Các mô hình quy mô nhỏ của Nvidia tiếp tục giành chiến thắng.

Kết quả mới nhất của ARC-AGI 2 cho thấy mẫu NVARC nhỏ 4B đứng đầu danh sách với số điểm là 27,64% trên bảng xếp hạng mở, vượt qua 18,3% của GPT-5 Pro.

Hơn nữa, chi phí cho mỗi nhiệm vụ chỉ là 20 xu, chỉ bằng khoảng 1/36 chi phí cho một nhiệm vụ duy nhất của GPT-5 Pro (có giá hơn 7 đô la) .

Theo phân tích chính thức, điểm nổi bật trong chiến thắng của LẦN nằm ở phương pháp học độ sâu không cần đào tạo trước , không dựa vào dữ liệu chung quy mô lớn để đào tạo trước, do đó tránh được các vấn đề như sai lệch miền và sự phụ thuộc vào dữ liệu của các mô hình được đào tạo trước.

ARC-AGI 2 thực sự là một bài kiểm tra đầy thử thách hơn, loại bỏ sự trùng lặp với dữ liệu đào tạo công khai, chủ yếu để xem liệu mô hình thử nghiệm có thể tiếp thu hiệu quả các kỹ năng mới ngoài dữ liệu đào tạo của nó hay không.

Sau khi kết quả được công bố, chính thức đã phỏng vấn Jean-Francois Puget và Ivan Sorokin từ đội ngũ NVARC để phân tích kỹ thuật.

Hãy đến và xem "Vua của hiệu quả chi phí" được "tạo ra" như thế nào?

Xếp chồng vật liệu mà không cần dựa vào thông số

Chiến lược của Nvidia là chuyển suy luận phức tạp sang đường ống dữ liệu tổng hợp ngoại tuyến và đào tạo các mô hình nhỏ hơn có thể chạy nhanh tại thời điểm đánh giá.

Nói một cách đơn giản, nó bao gồm việc tổng hợp dữ liệu chất lượng cao trên quy mô lớn , tối ưu hóa các mô hình hiện có và chuyển công việc tính toán tốn kém ra ngoại tuyến .

Vì các cuộc thi Kaggle có những hạn chế rất nghiêm ngặt về tài nguyên máy tính nên đội ngũ nhận ra rằng họ không thể trực tiếp sử dụng các LMM lớn đòi hỏi tỷ lệ băm siêu máy tính để thực hiện suy luận từng bước phức tạp và tạo mã.

Do đó, họ đã thay đổi cách tiếp cận và quyết định chuyển phần lớn công việc tính toán tốn kém nhất sang chế độ ngoại tuyến. Ví dụ, họ đã sử dụng GPT-OSS-120B để tạo ra các câu đố tổng hợp chất lượng cao trên quy mô lớn.

Đội ngũ đã thu thập dữ liệu câu đố ARC hiện có từ dữ liệu H-ARC và BARC, sau đó trộn các câu đố đơn giản lại với nhau để tạo ra các câu đố mới phức tạp hơn.

Để đảm bảo chất lượng dữ liệu, họ chia nhỏ quy trình suy luận phức tạp thành nhiều giai đoạn khác nhau, mỗi giai đoạn có thể được xác minh độc lập.

Theo cách này, họ đã xây dựng được một dữ liệu tổng hợp chứa hơn 3,2 triệu mẫu tăng cường, trong đó mỗi mẫu có tới 7 cặp đầu vào/đầu ra.

Tôi không thể không đề cập ở đây rằng Hassabis vừa nhấn mạnh tầm quan trọng của Luật mở rộng quy mô, vậy tại sao việc mở rộng quy mô dữ liệu tổng hợp lại không được tính (doge)?

Quay trở lại vấn đề chính, mô-đun lý luận cốt lõi của NVARC dựa trên phiên bản cải tiến của phương pháp ARCHitects, sử dụng mô hình tham số nhỏ Qwen3-4B và đơn giản hóa việc hiểu câu đố thông qua các mẫu hội thoại.

Trong quá trình đào tạo, quá trình tinh chỉnh có giám sát được thực hiện bằng cách sử dụng khuôn khổ NeMo RL và phần phụ trợ Megatron.

Tuy nhiên, một bước quan trọng để giúp mô hình đạt được kết quả tuyệt vời là tinh chỉnh thời gian thử nghiệm (TTFT).

Để ứng phó với đặc điểm "mỗi nhiệm vụ là một quy tắc hoàn toàn mới" của ARC-AGI-2, NVARC đã giới thiệu công nghệ tinh chỉnh LoRA và tinh chỉnh nó cho từng vấn đề, cho phép mô hình thích ứng nhanh chóng trước khi giải quyết vấn đề.

Cải tiến của phương pháp ARCHitects nằm ở việc tối ưu hóa xử lý hàng loạt của thuật toán DFS trong giai đoạn giải mã, giúp khắc phục vấn đề về kết quả không xác định.

Đồng thời, tám giải pháp ứng viên đánh giá các hoạt động tăng cường dữ liệu đã được thống nhất và điểm số cuối cùng là 27,64% trên bảng xếp hạng công khai.

Sau đó, đội ngũ cũng áp dụng phương phápTRM "ít hơn là nhiều hơn" và cố gắng tích hợp với Qwen3-4B tích hợp bổ sung điểm số. Mặc dù có một số cải thiện, nhưng chưa được tối ưu hóa đáng kể do nhiều hạn chế.

Vậy câu hỏi ở đây là: một số người có thể nói rằng một mô hình nhỏ như vậy được đào tạo theo cách này chỉ là một cỗ máy giải quyết vấn đề, và làm sao nó có thể so sánh với một mô hình siêu lớn được sử dụng đầy đủ?

Nhưng điều đáng chú ý hơn không phải là bản thân mô hình mà là phương pháp đạt được bước đột phá.

Trong nhiệm vụ miền cụ thể, các mô hình nhỏ, sau khi được tối ưu hóa mục tiêu, vẫn đạt hiệu suất không hề kém cạnh. Hơn nữa, với lợi thế về chi phí, tốc độ, khả năng thích ứng và tập trung vào miền, chúng đã bắt đầu nổi bật trong nhiều tình huống.

Sử dụng đúng phương pháp ở đúng nơi sẽ mang lại giá trị lớn hơn.

Theo lời của cư dân mạng này, có lẽ mô hình này nên được thiết kế để "linh hoạt" hơn.

Liên kết bài báo: https://drive.google.com/file/d/1vkEluaaJTzaZiJL69TkZovJUkPSDH5Xc/view

Liên kết tham khảo:

[1]https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/

[2]https://arcprize.org/blog/arc-prize-2025-results-analysis

[3]https://www.kaggle.com/competitions/arc-prize-2025/writeups/nvarc

Bài viết này được trích từ tài khoản công khai WeChat "Quantum Bit" , tác giả: Wen Le và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận