홍콩중문대학과 칭화대학 팀이 Video-R1 모델을 출시하여, 처음으로 강화 학습의 R1 패러다임을 비디오 추론 분야에 적용했습니다. 업그레이드된 T-GRPO 알고리즘과 혼합 이미지 비디오 데이터셋을 통해 Video-R1은 비디오 공간 추론 테스트에서 GPT-4o를 능가하며, 강력한 추론 능력을 보여주었고, 모든 코드와 데이터셋을 오픈 소스로 공개했습니다.
언어 모델 추론이 막 화제가 되자, 비디오 AI도 경쟁을 시작했습니다.
이번에 나선 곳은 홍콩중문대학+칭화 조합으로, 강화 학습의 R1 방식을 비디오 영역으로 직접 가져와 전 세계 최초의 비디오 버전 R1 모델: Video-R1을 만들었습니다.
7B 파라미터밖에 되지 않지만, 리페이페이가 제시한 VSI-Bench 기준에서 GPT-4o를 능가했습니다!
이는 단순한 미세 조정이 아닙니다. 새로운 시간 인식 알고리즘 T-GRPO를 도입하고, 이미지+비디오 혼합 훈련과 두 세트의 고품질 데이터셋을 사용해 AI의 비디오 추론 능력을 최대한 끌어올려, 모델이 단순히 '보는' 것을 넘어 '사고'하기 시작했습니다.
게다가, 전체 모델, 코드, 데이터셋을 이미 오픈 소스로 공개했습니다!
비디오 대규모 모델의 '추론 순간'이 시작되었습니다.
(이하 생략, 동일한 방식으로 번역 계속)강화 학습의 진행에 따라 모델이 얻은 정확도 보상과 시간 보상이 지속적으로 상승하고 있어, 이는 모델이 단순히 문제를 잘 풀 뿐만 아니라 '시간 논리'를 점점 더 이해하고 있음을 보여줍니다.
흥미로운 점은 모델이 훈련 초기에 출력하는 답변이 짧아졌다는 것입니다. 이는 이전 SFT에서 학습한 차선의 추론 방식을 능동적으로 버리고 있는 것입니다. 그러나 훈련이 진행됨에 따라 출력이 점차 회복되고 안정화되어, 더 효율적이고 논리적인 표현 경로를 형성했습니다.
마지막으로
Video-R1은 실력으로 증명했습니다: 강화 학습은 NLP의 전유물이 아니며, 비디오 대규모 모델도 추론 능력을 발휘할 수 있습니다.
이는 '데이터 축적'에 의존하지 않고, 메커니즘 설계와 훈련 전략에 의존하며, 전체 과정을 오픈 소스로 공개했습니다.
R1의 추론 패러다임은 다음 AI 혁명을 텍스트 세계에서 모든 프레임으로 가져오고 있습니다.
비디오 추론의 시대가 진정으로 도래했습니다.
참고 자료:
https://arxiv.org/abs/2503.21776
본 기사는 위챗 공식 계정 "신지원"에서 가져왔으며, 작성자는 신지원이고 36커에서 허가를 받아 게시되었습니다.


