Video lý luận R1 khoảnh khắc, mô hình 7B vượt qua GPT-4o, Đại học Thanh Hoa CUHK ra mắt Video-R1 đầu tiên

avatar
36kr
04-16
Bài viết này được dịch máy
Xem bản gốc

Đội ngũ CUHK và Đại học Thanh Hoa đã ra mắt mô hình Video-R1, đây là mô hình đầu tiên áp dụng mô hình học tăng cường R1 vào lĩnh vực suy luận video. Thông qua thuật toán T-GRPO nâng cấp và dữ liệu hình ảnh và video hỗn hợp, Video-R1 vượt qua GPT-4o trong bài kiểm tra suy luận không gian video, chứng minh khả năng suy luận mạnh mẽ và tất cả các mã và dữ liệu đều là mã nguồn mở.

Khi lý luận mô hình ngôn ngữ trở nên phổ biến, AI video cũng bắt đầu trở nên phổ biến.

Lần, nhóm hành động là sự kết hợp giữa CUHK và Đại học Thanh Hoa, đã trực tiếp đưa lối chơi R1 trong học tăng cường sang lĩnh vực video và tạo ra phiên bản video đầu tiên trên thế giới của mô hình R1: Video-R1 .

Mặc dù chỉ có tham số 7B nhưng thực tế nó đã vượt qua GPT-4o trong tiêu chuẩn VSI-Bench do Fei-Fei Li đề xuất !

Làn sóng này không phải là sự điều chỉnh đơn giản. Nó được trang bị thuật toán nhận biết thời gian mới T-GRPO , kết hợp với đào tạo kết hợp hình ảnh + video và hai bộ dữ liệu chất lượng cao, giúp tối đa hóa khả năng suy luận video của AI, cho phép mô hình không chỉ "nhìn" mà còn "suy nghĩ".

Hơn nữa, toàn bộ các mô hình, mã và dữ liệuhiện đều là mã nguồn mở!

"Khoảnh khắc lý luận" của mô hình video đã bắt đầu.

Liên kết bài báo: https://arxiv.org/abs/2503.21776 Địa chỉ dự án: https://github.com/tulerfeng/Video-R1

Blogger có tiếng AK cũng đã gửi hai dòng tweet liên tiếp để giới thiệu bài báo này:

Tại sao các mô hình video lớn luôn “không thông minh”?

Người mẫu video có vẻ "biết điều gì đó", nhưng thực tế hầu hết họ chỉ biết hời hợt. Khu vực thực sự khiến chúng "suy nghĩ" thực ra lại là điểm yếu nhất của chúng.

Đội ngũ nghiên cứu chỉ ra rằng nếu chúng ta vẫn áp dụng quy trình GRPO truyền thống để huấn luyện AI xem video, chúng ta sẽ rơi vào hai cạm bẫy:

Một là mô hình không có khái niệm về thời gian . Nó không hiểu logic đằng sau các sự kiện trong video và thường "nói dựa trên hình ảnh" - nó vội vàng đưa ra câu trả lời sau khi nhìn thấy một khung hình. Phương pháp này chỉ có thể đoán đúng lần, nhưng không thể hình thành lý luận nhân quả thực sự và có khả năng khái quát kém. Ví dụ như hình minh họa bên dưới.

Một vấn đề khác còn nan giải hơn: dữ liệu đào tạo quá nông . Nhiều dữ liệu video hiện tại không phù hợp để dạy các mô hình cách "suy nghĩ". Tất cả đều là những câu hỏi nhận dạng và hầu như không có nhiệm vụ nào đòi hỏi phải suy luận để giải quyết. Bất kể bạn huấn luyện mô hình như thế nào thì đó cũng chỉ là ghi nhớ máy móc và không có cơ hội để rèn luyện não bộ.

Do đó, lý do mô hình video "không thông minh" không phải vì nó không có tiềm năng, mà là vì không ai dạy nó phương pháp.

Một cơ chế khen thưởng để đào tạo lý luận video

Đội ngũ nghiên cứu đã nghĩ ra một mánh khóe tàn nhẫn: cơ chế khen thưởng gắn liền với sự hiểu biết về thời gian .

Các nhà nghiên cứu nâng cấp thuật toán GRPO cũ lên T-GRPO, nhạy cảm hơn với thời gian và kết hợp trực tiếp "xem xét thời gian" vào logic phần thưởng của mô hình.

Phương pháp đơn giản, thô sơ và hiệu quả - mô hình nhận được hai bộ đầu vào lần: một bộ khung hình video theo thứ tự ngẫu nhiên và một bộ theo thứ tự. Nó chỉ được thưởng nếu có tỷ lệ phần trăm câu trả lời đúng cao hơn trong các dữ liệu đầu vào "tuần tự".

Cơ chế này đang "dạy" mô hình: không chỉ nhìn vào hình ảnh mà còn lý giải về nguyên nhân và kết quả. Ngay cả khi bạn đoán đúng câu hỏi sau khi chỉ nhìn vào một khung hình, bạn cũng sẽ không nhận được điểm nào.

Theo cơ chế chấm điểm nghiêm ngặt này, mô hình cuối cùng đã hiểu rằng video không phải là một trang PPT được lật lại mà là một câu chuyện được kết nối với nhau bằng các manh mối hợp lý.

Dựa vào dữ liệu lai để mở kinh Nhâm và kinh Độ

Dữ liệu suy luận video quá khan hiếm và mô hình không thể được đào tạo?

Các nhà nghiên cứu chỉ cần kết hợp dữ liệu suy luận hình ảnh vào quá trình đào tạo video và tạo ra hai bộ dữ liệu chính: một là Video-R1-COT-165k dựa trên hình ảnh, được sử dụng cụ thể cho tư duy mô hình khởi động lạnh; loại còn lại là Video-R1-260k dựa trên video chất lượng cao, được sử dụng để tinh chỉnh và đào tạo chuyên sâu.

Đừng nghĩ rằng hình ảnh chỉ mang tính chất phụ trợ. Ngược lại, chúng giúp AI xây dựng “nền tảng logic” và học cách đưa ra những suy luận chung. Và những dữ liệu video được tối ưu hóa đó buộc nó phải hiểu logic thời gian và những thay đổi động.

Phương pháp đào tạo kết hợp hình ảnh + video này không chỉ giải quyết được vấn đề khan hiếm dữ liệu mà còn cho phép mô hình có bước tiến vượt bậc từ "nói bằng cách nhìn vào hình ảnh" sang "suy nghĩ sâu sắc bằng video", thực sự mở ra kinh mạch Nhâm và Đô của sự hiểu biết đa phương thức.

Khoảnh khắc “aha” của lý luận video

Trong quá trình suy luận, Video-R1 bất ngờ trải qua một "khoảnh khắc giác ngộ" giống con người - khoảnh khắc khi mọi manh mối đột nhiên được kết nối với nhau và mọi thứ đột nhiên trở nên sáng tỏ, còn được gọi là "khoảnh khắc aha".

Ví dụ, một câu hỏi là: Hành động nào sẽ gây ra tổn thất năng lượng trong hệ thống? Một cách khác là: sau khi xem video về việc đi lại trong nhà, hãy suy ra đường đi từ tủ sách đến bồn tắm.

Với các mô hình trước đây, câu trả lời có thể được đưa ra chỉ sau một lần "nhìn", nhưng Video-R1 có thể phân tích trình tự từng bước, đưa ra suy luận và cuối cùng đưa ra câu trả lời chính xác với vòng lặp logic khép kín.

Đây không phải là sự ghi nhớ máy móc mà là dấu hiệu cho thấy lý luận thực sự có hiệu quả. Lần, AI chứng minh rằng nó không chỉ nhận dạng hình ảnh mà còn “suy nghĩ” về những gì đang diễn ra trong video.

Kết quả thực nghiệm

Trong nhiều tiêu chuẩn kiểm tra suy luận video, mô hình Video-R1-7B gần như luôn dẫn đầu, đặc biệt là trong đánh giá VSI-Bench có thẩm quyền do Fei-Fei Li đề xuất, trong đó mô hình này đạt tỷ lệ chính xác là 35,8%, vượt qua mô hình hàng đầu GPT-4o nguồn đóng.

Không chỉ vậy, khoảng cách giữa RL và SFT truyền thống cũng ngày càng lớn. Ví dụ, Qwen2.5-VL-SFT, cũng có kích thước 7B, có hiệu suất kém trong thử nghiệm. Ngược lại, Video-R1 có đầu ra ổn định trong hầu hết mọi tình huống và khả năng tổng quát của nó vượt xa các loại khác.

Ngoài ra còn có một khám phá rất quan trọng: càng có nhiều khung thì suy luận càng chính xác. Khi số lượng khung hình video đầu vào của mô hình tăng từ 16 lên 32 rồi lên 64, hiệu suất thử nghiệm cũng được cải thiện. Điều này cho thấy khả năng hiểu được dòng thời gian chính là chìa khóa thành công của các mô hình lý luận video. Bất kỳ ai có thể xử lý những video dài hơn sẽ có tương lai tốt đẹp hơn.

Đội ngũ cũng đã tiến hành một loạt các thí nghiệm cắt bỏ, trực tiếp "trích xuất"dữ liệu hình ảnh đào tạo và sau đó cố gắng cắt bỏ mô-đun mô hình hóa thời gian. Kết quả đều giống nhau - hiệu suất của mô hình giảm đáng kể. Điều này chứng minh trực tiếp một điều: mọi thiết kế của Video-R1 đều hoàn hảo.

Không chỉ vậy, bạn còn có thể thấy được những mánh khóe từ động lực luyện tập. Khi quá trình học tăng cường tiến triển, độ chính xác và phần thưởng thời gian mà mô hình đạt được tiếp tục tăng, cho thấy mô hình không chỉ trả lời câu hỏi tốt hơn mà còn hiểu rõ hơn về "logic thời gian".

Điều thú vị là các câu trả lời do mô hình đưa ra trở nên ngắn hơn trong giai đoạn đầu của quá trình đào tạo - đây là sự từ bỏ chủ động các mô hình lý luận không tối ưu đã học được trong SFT lần; nhưng khi quá trình đào tạo tiến triển, kết quả dần phục hồi và ổn định, hình thành nên một lộ trình biểu đạt hiệu quả và hợp lý hơn.

Lời cuối cùng

Video-R1 đã chứng minh bằng sức mạnh của mình rằng học tăng cường không chỉ là lĩnh vực của NLP; các mô hình video lớn cũng có thể chứng minh khả năng suy luận.

Nó không dựa vào việc "tích lũy vật liệu" mà dựa vào thiết kế cơ chế và chiến lược đào tạo, và toàn bộ bộ công cụ này mã nguồn mở.

Mô hình lý luận của R1 đang mang cuộc cách mạng AI tiếp theo từ thế giới văn bản vào từng khung hình.

Kỷ nguyên của lý luận video thực sự đã đến.

Tham khảo:

https://arxiv.org/abs/2503.21776

Bài viết này trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: Xinzhiyuan, được 36Kr xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận