ByteDance는 완전히 투명한 사고 과정과 GPT-4o를 능가하는 성능을 갖춘 최초의 시공간 추론 비디오 모델을 오픈 소스로 공개했습니다.

이 기사는 기계로 번역되었습니다
원문 표시

이제 AI가 영상의 핵심 포인트를 강조 할 수 있습니다!

이는 "무엇"과 "무슨 일이 일어났는가"에 대한 답뿐만 아니라, " 언제 어디서" 일어났는지도 알려준다.

베이징대학교와 바이트댄스의 공동 연구팀은 전체 비디오 추론 과정에 명시적인 시공간적 증거를 내장하는 최초의 오픈소스 모델인 Open-o3 Video를 출시했습니다. 이를 통해 AI는 질문에 정확하게 답할 수 있을 뿐만 아니라 사고 과정 중 특정 위치를 동시에 직관적으로 표시하여 추적 가능한 비디오 추론을 구현할 수 있습니다.

한편, 이 모델은 비에이전트 아키텍처를 채택하여 복잡한 도구 호출과 여러 라운드의 추론을 피하고 단일 응답으로 "보기-생각하기-증명하기-답변하기"의 폐쇄 루프를 직접 완료합니다.

여러 비디오 추론 테스트에서 주요 지표는 24.2%까지 향상되어 GPT-4oGemini-2-Flash 와 같은 폐쇄형 소스 모델보다 우수한 성능을 보였습니다.

자세한 내용은 아래와 같습니다.

연구 배경

비디오 이해 는 다중 모드 대규모 모델(MLLM)에서 가장 복잡한 작업 중 하나입니다.

정적 이미지와 달리 비디오는 시간적 차원에서의 역동적인 변화와 공간적 차원에서의 장면 상호작용을 동시에 전달합니다.

즉, 모델은 이미지 속의 객체와 동작을 식별해야 할 뿐만 아니라(What) 그것들이 언제 나타나는지(When)와 어디에서 발생하는지(Where)도 판단해야 합니다.

최근 Video-R1과 VideoRFT와 같은 모델들은 강화 학습을 통해 비디오 이해의 논리적 일관성을 크게 향상시켰습니다. 하지만 이들의 사고 과정은 여전히 ​​순전히 텍스트에 기반합니다. 이 모델은 질문에 정확하게 답할 수는 있지만, 답을 뒷받침하는 구체적인 이미지를 제시하지 못합니다.

이러한 "블랙박스 추론"은 모델의 판단을 설명하기 어렵게 만들고 검증하기도 어렵게 만듭니다.

또한, OpenAI의 o3 모델은 "이미지로 생각하기"라는 개념을 처음으로 제안했는데, 이를 통해 모델은 추론 과정에 이미지를 내장하여(예: 영역 선택, 로컬 영역 확대, 확대하여 보기) 추론 체인에서 시각적 단서를 자연스럽게 참조할 수 있으며, 이를 통해 "증거 기반 추론"을 달성할 수 있습니다.

그러나 이 개념을 비디오 도메인으로 확장하여 추론 중에 모델이 시간과 공간 모두에서 증거를 제공할 수 있도록 하는 것은 훨씬 더 어렵습니다.

1. 추론에서 텍스트, 타임스탬프, 객체 경계 상자 간의 일관성을 유지하는 것은 어렵습니다.

모델은 수십 또는 수백 개의 프레임에 걸쳐 이벤트의 시점에 정확하게 맞춰져야 합니다. 조금이라도 어긋나면 추론 로직에 오류가 발생하여 학습이 어려워집니다.

더욱이 같은 물체의 위치가 프레임마다 크게 바뀌기 때문에 시간적 역학에서 공간적 위치를 지속적으로 추적해야 합니다.

2. 시공간적 결합 감독이 심각하게 부족합니다.

기존 데이터는 시간적 근거만 제공하거나 단일 프레임 공간 상자만 제공할 뿐, 통합된 시공간적 주석과 이에 상응하는 사고 과정이 부족합니다.

모델 학습 과정

데이터 격차를 메우다

따라서 시공간적 위치 단서에 기반한 비디오 추론을 사용하는 데 있어 가장 근본적인 병목 현상은 데이터에 있습니다.

기존의 비디오 이해 데이터 세트는 종종 시간이나 공간 차원에 대한 주석만 있고, 시공간적으로 결합된 사고 사슬 데이터가 부족하여 모달리티 간에 단절이 발생합니다.

따라서 연구팀은 명시적 시공간적 근거 추론을 위한 최초의 통합 코퍼스 시스템인 STGR (Spatio-Temporal Grounded Reasoning)을 구축했습니다. 여기에는 STGR-CoT-30kSTGR-RL-36k 의 두 부분이 포함됩니다.

전자는 모델이 시공간 주석을 통해 추론 형식과 출력 구조를 학습하도록 돕는 지도 미세 조정(SFT)에 사용되고, 후자는 모델의 시공간 정렬과 증거 생성 기능을 지속적으로 최적화하기 위해 고품질 보상 신호를 제공하는 강화 학습(RL) 단계에서 사용됩니다.

두 데이터 세트 모두 시간적 위치 파악, 공간적 위치 파악, 시공간적 위치 파악 데이터, 비디오 질의응답 데이터라는 네 가지 유형의 작업을 포함하고 있으며, 데이터 분포는 다음과 같습니다.

그중 5.9k개의 고품질 시공간 데이터는 그림에 표시된 데이터 파이프라인에 따라 팀에서 레이블링되었습니다. 구체적인 프로세스는 다음과 같습니다.

1. 두 가지 데이터 소스(시간적 접지 및 plm-rdcap)에 대해 Gemini 2.5 Pro를 사용하여 초기 주석을 작성하고, 질문-답변 쌍, 초기 키프레임, 객체 감지 상자 및 추론 프로세스를 생성했습니다. 표시된 시공간적 위치 지정 형식은 다음과 같습니다.

"[obj>object_name</obj><box>[x min, y min, x max, y max]</box>at<t>timestamp</t>s"

2. 대형 모델에 표시된 경계 상자의 품질이 제한적이기 때문에 팀은 필터링을 위해 두 가지 방법을 사용했습니다.

너무 큰 영역(화면의 80% 이상)을 덮는 잘못된 프레임을 제거합니다.

예를 들어, "이게 개인가요?"라는 쿼리를 사용하여 감지 상자의 내용을 확인하여 Qwen2.5-VL-7B를 사용하여 대상 범주가 일치하는지 확인합니다.

3. 일관성 검사: 질문-답변, 타임스탬프, 객체 이름, 테두리 및 추론 체인이 일대일로 대응하도록 추론 체인을 다시 작성하고 중복되거나 일관되지 않은 샘플을 삭제합니다.

2단계 훈련 방법

고품질 시공간 코퍼스로 기초를 다진 후, 가장 중요한 질문은 모델이 "비디오에서 생각하는 법"을 실제로 학습할 수 있도록 하는 방법이 됩니다.

연구팀은 지도 학습 미세 조정만으로는 만족스러운 결과를 얻을 수 없다는 것을 발견했습니다. 이는 지도 학습 단계에서 모델이 시각적 단서와 추론 구조 간의 논리적 관계를 진정으로 이해하기보다는 인간 주석 작성자의 언어 패턴을 모방하는 데 더 집중했기 때문입니다.

따라서 모델이 핵심 증거를 적극적으로 발견하고 인용하기 위해서는 자체 교정 강화 학습 메커니즘을 사용하여 보상 신호가 "어떤 프레임을 보아야 하는지, 어떤 영역에 주의를 기울여야 하는지, 무엇을 생각해야 하는지"를 직접적으로 제한하도록 해야 합니다.

이 개념은 Open-o3 비디오 훈련의 핵심을 형성합니다. 즉 , 콜드 스타트 ​​사전 훈련GSPO 기반 강화 학습이라는 2단계 학습 메커니즘입니다.

콜드 스타트 ​​단계에서는 STGR-CoT-30k 데이터를 사용하여 감독 하에 모델을 먼저 미세 조정합니다.

이 단계의 목표는 모델이 추론 형식과 출력 사양을 숙지하도록 하는 것입니다. 즉, 답변에서 <input type="keywords">, <output ..., <output type="keywords">와 같은 구조화된 태그 생성하는 방법과 추론 체인을 비디오 콘텐츠와 일치시키는 방법을 배우는 것입니다.

이 단계는 "모델에게 말하기를 가르치는 것" 과 동일합니다. 즉, 모델은 언어로 시각적 증거를 설명하는 방법을 배우지만, 아직 자발적인 증거 선택 전략을 형성하지는 못했습니다.

다시 말해, 콜드 스타트 ​​단계에서는 모델이 추적 가능한 답을 생성할 수 있는 능력을 부여하고, 다음 단계에서는 이 능력을 정확하고 안정적이며 일반화할 수 있도록 만드는 것입니다.

두 번째 단계에서 팀은 강화 학습 프레임GSPO를 도입했습니다.

널리 사용되는 GRPO와 비교했을 때, GSPO는 시퀀스를 기반으로 최적화되어 있어 장기 훈련의 안정성을 높이고 사고 사슬의 붕괴를 방지합니다.

이 단계에서 모델은 개방형 비디오 장면에서 완전한 시공간 추론 시퀀스를 생성한 후, 보상 함수를 사용하여 자체 보정해야 합니다. 보상 함수는 세 부분으로 구성됩니다.

r_acc는 답변의 정확성을 측정합니다. r_thk는 추론 체인의 합리성과 완전성을 반영하여 모델이 시간적 IoU와 공간적 IoU를 계산하는 등 사고 텍스트를 생성할 때 시각적 증거를 최대한 활용하도록 합니다. r_fmt는 추론 형식이 사양을 준수하는지 평가합니다.

연구팀은 단일 정확도 보상으로는 다중 모드 해석 추론을 지원할 수 없다고 강조했습니다. 모델이 답을 "추측"할 수는 있지만 주요 세부 사항은 무시할 수 있기 때문입니다. 추론 과정 자체가 최적화 목표에 통합될 때에만 모델은 시각적 세계에서 생각하는 방법을 진정으로 배우게 됩니다.

그러나 강화 학습을 사용하여 시간적, 공간적 차원 모두에서 현지화 기능을 최적화하는 것은 매우 어렵습니다. 특히 공간적 보상(IoU)은 시간적 예측의 정확도에 따라 달라지기 때문입니다.

구체적으로, 시간 예측이 부정확하면 공간 상자 위치가 정확하더라도 실제 값과 일치할 수 없습니다. 다시 말해, 시간 예측은 훈련 안정성을 위한 필수 조건입니다.

그러나 시간적 보상 예측에 엄격한 시간 제약 조건을 직접 적용하면, 모델은 학습 초기 단계에서 보상을 받지 못하는 경우가 많아 학습 정체 현상이 발생합니다. 느슨한 제약 조건을 항상 적용하면, 모델은 보상을 받을 수 있지만, 시간적 보상은 포화되기 쉽고 예측이 점진적으로 정확한 위치로 수렴하지 못하기 때문에 공간적 보상 계산은 여전히 ​​부정확합니다.

따라서 연구팀은 훈련 중 시간 보상의 허용 범위를 점진적으로 조절하는 적응적 시간 근접 메커니즘을 제안했습니다. 구체적인 공식은 다음과 같습니다.

훈련이 진행됨에 따라 표준 편차는 큰 값에서 점차 감소하여 "대략적인 국소화"에서 "정밀한 국소화"로 수렴합니다.

한편, 저희 팀은 공간 보상을 계산하기 전에 예측된 타임스탬프가 실제 타임스탬프에 가까운지 확인하는 시간 게이팅 메커니즘을 제안했습니다. 시간 예측이 실제 값(설정된 임계값 미만)에 가까울 때만 예측된 박스와 해당 프레임의 실제 박스 사이의 IoU를 계산합니다. 그렇지 않으면 공간 보상은 0입니다.

이러한 훈련 방법과 보상 설계를 통해 모델을 보다 안정적이고 효율적인 방식으로 훈련할 수 있습니다.

추론 향상

연구팀이 제안한 시공간적 증거는 검증 가능한 신호로 활용될 수 있으며, 테스트 시간 연장에 적용될 수 있습니다.

구체적으로 추론 단계에서 모델은 시공간적 증거를 포함하는 여러 개의 독립적인 추론 체인을 생성합니다.

추론 체인에서 해당 키프레임 영역을 추출하여 모델에 다시 입력하여 질문과의 관련성을 평가합니다(각각 0점, 1점, 2점은 질문과 관련이 없음, 질문에 대한 답변에 도움이 될 수 있음, 질문에 대한 답변에 매우 도움이 됨을 나타냄).

각 답변은 점수에 따라 가중치가 부여되며, 신뢰 수준이 가장 높은 답변이 출력됩니다.

이 메커니즘은 낮은 품질의 사고 사슬로 인해 투표가 오도되는 것을 효과적으로 방지하여 추론의 정확성과 견고성을 향상시킵니다.

실험 결과

Open-o3 Video는 다양한 비디오 추론 및 이해 벤치마크에서 상당한 성능을 달성했습니다.

먼저, 연구팀은 시공간 추론을 위한 벤치마크인 V-STAR에서 모델을 테스트했습니다. V-STAR는 "무엇", "언제", "어디"의 세 가지 차원에서 모델의 성능을 종합적으로 조사합니다.

보시다시피, Open-o3 Video는 Temporal IoU(시간 정렬)와 Visual IoU(공간 정렬) 모두에서 상당한 개선을 이루었으며, mAM에서 전체적으로 +14.4%, mLGM에서 +24.2%의 개선을 이루었습니다. 이는 GPT-4o 및 Gemini-2-Flash와 같은 대규모 폐쇄형 소스 모델을 능가하여 시공간적 관절 국소화와 추론 일관성 측면에서 상당한 장점을 가지고 있음을 완벽하게 보여줍니다!

또한, VideoMME, WorldSense, VideoMMMU, TVGBench의 4가지 벤치마크 테스트에서 Open-o3 Video는 기준 모델과 수많은 비디오 추론 모델보다 지속적으로 우수한 성능을 보였습니다.

VideoMME-Long 하위 과제에서는 4.1%의 상당한 향상을 보이며 54.9%에 도달했습니다. WorldSense 및 VideoMMMU 부분 지각 과제에서는 기준 모델 대비 3% 이상의 향상을 보였습니다. TVGBench에서는 20.8의 mIoU를 달성하여 역시 4.5% 향상되었습니다.

이러한 결과는 Open-o3 비디오가 복잡한 추론을 요구하는 시공간적 작업에서 탁월한 성능을 보일 뿐만 아니라, 전통적인 비디오 인식 및 시간적 위치 파악 작업에서도 강력한 일반화 기능을 보여준다는 것을 보여줍니다.

더 중요한 점은 명확한 증거 체계 설계 덕분에 모델에서 생성된 답변은 검증이 가능하여 동일한 정확도로 더 높은 해석 가능성과 신뢰성을 제공한다는 것입니다.

연구팀은 다양한 훈련 단계, 데이터 구성, 보상 메커니즘이 모델 성능에 미치는 영향을 더욱 검증하기 위해 체계적인 절제 연구를 수행했습니다.

실험 결과는 표에 나타나 있으며, 훈련 전략, 보상 설계, 데이터 유형 및 데이터 규모와 같은 요인이 시공간적 추론 성능에 미치는 영향을 종합적으로 평가한 것입니다.

표 3에서 볼 수 있듯이, 2단계 학습 메커니즘(SFT + RL)은 모델 성능을 개선하는 데 매우 중요합니다.

지도 학습(순수 SFT)만으로 이 모델은 시공간적 레이블이 있는 추론 형식을 학습할 수 있었지만, 전반적인 성능은 여전히 ​​고정 레이블의 모방으로 인해 제한되었습니다.

순수 강화 학습(GSPO)은 시간적, 공간적 일관성을 개선할 수 있지만, CoT 데이터에 대한 학습 없이는 성능 향상이 제한적입니다.

두 가지를 결합하면 모델은 mAM에서 33.7%, mLGM에서 46.6%로 향상됩니다.

이는 콜드 스타트 ​​단계 동안의 구조화된 감독이 필요한 추론 템플릿을 제공하는 반면, GSPO 기반 강화 단계는 모델의 시공간적 정렬과 증거 방향을 더욱 최적화하여 안정적이고 해석 가능한 추론 기능을 달성한다는 것을 나타냅니다.

표 4는 적응적 시간적 근접성과 시간적 게이팅이라는 두 가지 주요 보상 메커니즘의 역할을 보여줍니다.

적응적 최근접 이웃 메커니즘(Ada 없음)을 제거하면 모델의 mLGM이 1.4% 감소합니다. 게이팅을 사용하지 않으면(Gat 없음) 성능이 1.7% 감소합니다.

이는 팀의 원래 설계 의도를 확인시켜 줍니다. 근접성 메커니즘은 훈련 초기 단계에서 보상이 희소해지는 문제를 완화할 수 있고, 게이팅 전략은 모델이 잘못된 시간대에 무관한 객체를 잘못 판단하는 것을 방지할 수 있습니다 .

두 가지를 결합하면 보상 신호의 밀도와 정확성이 효과적으로 보장되어 모델이 점진적으로 시공간적으로 일관된 추론 모드로 수렴할 수 있습니다.

표 5는 시공간 주석 데이터의 중요성을 더욱 입증합니다.

시공간적으로 표시된 샘플을 제거하면(시공간적 데이터 없음) 모델 성능이 mAM 28.3/mLGM 36.2로 크게 떨어졌습니다. 기존 VideoEspresso 데이터를 도입한 후에는 약간 개선되었지만, 팀에서 구축한 높은 일관성 코퍼스만큼 좋지는 않았습니다.

STGR 주석이 달린 전체 데이터를 사용했을 때 mLGM은 46.6에 도달했는데, 이는 모델이 통합된 시공간적 감독을 통해 강력한 위치 추정 및 추론 능력을 실제로 학습했음을 나타냅니다. 이는 또한 언어, 공간, 시간에 걸친 일관성 측면에서 STGR 데이터의 가치를 간접적으로 입증합니다.

표 6은 일반적인 비디오 질의응답 데이터 볼륨이 모델의 전반적인 성능에 미치는 영향을 살펴봅니다.

실험 결과, 적당한 양의 일반 QA 샘플이 모델의 언어 생성 기능과 증거 현지화 기능의 균형을 효과적으로 조절할 수 있는 것으로 나타났습니다. 15,000개의 일반 VideoQA 샘플을 추가하면 모델은 최적의 균형을 달성합니다.

데이터 규모가 더욱 확장되면 성능은 실제로 약간 감소하는데, 이는 일반 샘플이 너무 많으면 시공간 주석의 감독 신호가 희석된다는 것을 나타냅니다.

따라서 팀은 궁극적으로 해석 가능한 추론과 일반적인 질의 응답 간의 최적의 균형을 달성하기 위해 15,000개의 데이터 포인트로 구성된 혼합 데이터 구성을 채택했습니다.

요약하자면, 절제 실험은 Open-o3 비디오의 세 가지 핵심 설계 원칙, 즉 통합 시공간 데이터, 2단계 학습 메커니즘, 적응형 보상 전략을 완전히 검증하여 모델 해석 가능성과 신뢰성을 개선하는 데 크게 기여한다는 것을 보여주었습니다.

이러한 설계를 통해 모델은 복잡한 비디오 시나리오에서 추적 가능한 추론 체인을 안정적으로 생성하여 진정한 증거 기반 다중 모드 추론을 달성할 수 있습니다 .

표 7에서 볼 수 있듯이, WorldSense와 VideoMMMU 벤치마크 모두에서 신뢰 기반 테스트 시간 연장 전략은 꾸준한 개선을 보이며 단일 추론(기본)과 단순 다수결 투표 방식보다 우수한 성과를 보였습니다.

이는 명시적인 시공간적 증거가 훈련 단계에서 감독 신호를 제공할 뿐만 아니라 추론 단계에서 신뢰할 수 있는 신뢰도 척도로 사용되어 모델이 다양한 사고 과정에서 더욱 강력한 판단을 내리는 데 도움이 된다는 것을 나타냅니다.

그러나 여러 응답을 병렬로 생성함으로써, 연구팀은 현재 모델이 상대적으로 어려운 문제 대면 실제 작업에서 상대적으로 적은 수의 고품질 추론 궤적을 생성한다는 사실도 관찰했습니다.

이는 모델의 시공간적 증거 클레임, 특히 긴 영상과 더욱 복잡하고 다양한 시나리오에서 더욱 개선되어야 함을 의미합니다. 이는 오픈소스 커뮤니티가 향후 심도 있게 탐구해야 할 중요한 방향이기도 합니다.

시각화 결과

Open-o3 비디오는 추론 과정과 최종 답변을 뒷받침하기 위해 추론 중에 시간적, 공간적 증거(타임스탬프와 경계 상자)를 제공할 수 있습니다. 이는 다음 시각화 예에서 볼 수 있습니다.

이러한 예는 객체 모양 인식, 행동 의도 분석, 날씨 추론을 처리하는 데 있어 Open-o3 Video가 얼마나 뛰어난 성능을 보이는지 보여줍니다.

이 모델은 다른 추론 모델과 마찬가지로 좋은 성능을 보이며 주장을 뒷받침하는 증거를 제공할 수 있어 응답을 더 직관적이고 신뢰할 수 있으며 검증하기 쉽게 만들어줍니다.

데모를 살펴보겠습니다.

이 팀은 Open-o3 Video 가 비디오 멀티모달 모델을 "정확하게 대답하는 능력"에서 "찾고 설명하는 능력"으로 전환시켜, 기계가 시공간적 차원에서 추적 가능한 추론을 수행할 수 있는 능력을 실제로 갖추게 할 것이라고 믿습니다.

앞으로 팀은 시공간적 추론 데이터와 사후 훈련 메커니즘을 지속적으로 개선하여 긴 영상과 더 복잡한 시나리오에서 질문에 대한 답변을 위한 강력한 시공간적 증거 지원을 제공할 것입니다.

게다가 팀의 모든 논문, 코드, 모델은 오픈 소스이며, 누구나 아이디어를 교환하고 토론할 수 있습니다!

논문 링크: https://huggingface.co/papers/2510.20579

코드 링크: https://github.com/marinero4972/Open-o3-Video

모델 링크: https://huggingface.co/marinero4972/Open-o3-Video

본 기사는 WeChat 공개 계정 "Quantum Bit" 에서 발췌하였으며, Open-o3 Video 팀이 작성하고 36Kr의 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트