北大字節開源首個時空推理視頻模型,思考過程全透明,性能超越GPT-4o

AI看視頻也能劃重點了!

不僅能回答“是什麼”、“發生了什麼”,還能指出是在“何時何地”發生。

來自北大和字節的聯合團隊,推出了首個將顯式時空證據嵌入視頻推理全過程的開源模型——Open-o3 Video,讓AI不僅能答對問題,也能在思維過程中同步直觀標出具體位置,真正實現有跡可循的視頻推理。

同時,模型採用non-agent架構,避免了複雜的工具調用和多輪推理,一次回覆中直接完成“看—想—證—答”的閉環。

在多個視頻推理測試中,關鍵指標可提升至24.2%,性能表現超越GPT-4oGemini-2-Flash等一眾閉源模型。

下面是更多詳細內容。

研究背景

視頻理解是多模態大模型(MLLM)中最複雜的任務之一。

不同於靜態圖像,視頻同時承載著時間維度的動態變化與空間維度的場景交互。

這意味著,模型不僅要識別畫面中的物體與動作(What),還必須判斷它們在什麼時間(When) 出現、什麼位置(Where) 發生。

近期,Video-R1、VideoRFT等模型通過強化學習顯著提升了視頻理解的邏輯一致性,但它們的思維鏈仍是純文本的,模型可能正確回答問題,卻無法指出支撐答案的具體畫面。

這種“黑箱式推理”讓模型的判斷既難以解釋,也難以驗證。

另外,OpenAI的o3模型首次提出 “Thinking with Images(圖像思考)” 的理念,通過在推理中嵌入圖像(如框選區域、局部放大、縮放查看),讓模型能在推理鏈中自然地引用視覺線索,從而實現“有依據的推理”。

然而,將這種理念擴展到視頻領域,即讓模型在推理中提供時間和空間兩方面的證據,更具有困難:

1、在推理中,文本、時間戳和物體目標框的一致性難以保持。

模型需在幾十上百幀中精確對齊事件發生的時間點,任何漂移都會導致推理邏輯錯誤,訓練難度大。

且同一物體在不同幀位置變化劇烈,需在時序動態中持續追蹤空間位置。

2、 時空耦合監督嚴重缺失。

現有數據要麼只提供時間段標註(Temporal Grounding),要麼僅有單幀的空間框(Spatial Grounding),缺乏統一的時空標註與相應的思維鏈。

模型訓練過程

補足數據短板

因此基於時空定位的線索來做視頻推理,最根本的瓶頸在於數據。

現有的視頻理解數據集往往只具備時間或空間維度的標註,沒有時空耦合的思維鏈數據,模態間存在割裂。

於是團隊構建了首個面向顯式時空推理的統一語料體系——STGR(Spatio-Temporal Grounded Reasoning),包括:STGR-CoT-30kSTGR-RL-36k兩部分。

前者用於監督微調(SFT),幫助模型學習帶時空標註的推理格式與輸出結構;後者用於強化學習階段(RL),提供高質量獎勵信號,以持續優化模型的時空對齊與證據生成能力。

兩個數據集均包含四類任務:時序定位;空間定位;時空定位數據和視頻問答數據,數據的分佈。

其中,5.9k的高質量spatio-temporal數據是團隊按照圖中的數據管線進行標註的,具體流程如下:

1、針對兩種數據源(temporal grounding和plm-rdcap) 利用Gemini 2.5 Pro進行初始標註,生成問題-答案對,初始的關鍵幀、目標檢測框和推理過程;顯示的時空定位的格式如下:

"<obj>object_name</obj><box>[x min, y min, x max, y max]</box>at<t>timestamp</t>s"

2、由於大模型標註的檢測框的質量有限,團隊通過兩種方式進行過濾:

剔除覆蓋面積過大 (超過畫面80%) 的無效框;

通過 Qwen2.5-VL-7B 驗證目標類別是否匹配,例如用查詢“Is this a dog?”來確認檢測框內容。

3、一致性檢查:改寫推理鏈以確保問題-答案、時間戳、物體名稱、邊框和推理鏈一一對應,刪除冗餘或不一致的樣本。

兩階段訓練方法

在高質量時空語料奠定基礎之後,如何讓模型真正學會“在視頻中思考”成為關鍵問題。

團隊發現,僅靠監督微調並不能達到滿意效果。因為在監督階段,模型更多地是在模仿人類標註者的語言模式,而非真正理解視覺線索與推理結構之間的邏輯關係。

因此,要讓模型能夠主動發現並引用關鍵證據,必須通過一種可自我糾偏的強化學習機制,讓獎勵信號直接約束其“看哪幀、注意哪個區域、想什麼”。

這一理念構成了Open-o3 Video的訓練核心:雙階段學習機制——冷啟動預訓練基於GSPO的強化學習

在冷啟動階段,模型首先通過STGR-CoT-30k數據進行監督微調。

此階段的目標是讓模型掌握推理格式與輸出規範,即如何在回答中同時生成、、等結構化標記,並學會將推理鏈與視頻內容對應起來。

這一階段相當於“教模型說話”:它學習瞭如何用語言描述視覺證據,但尚未形成自發的證據選擇策略。

換言之,冷啟動階段讓模型具備了“生成有跡可循答案的能力”,而下一個階段要做的,是讓這種能力變得準確、穩定、可推廣。

在第二階段,團隊引入強化學習框架GSPO

比起廣泛應用的GRPO,GSPO基於序列進行優化,更有利於長期訓練的穩定,避免思維鏈的崩潰。

這一階段,模型被要求在開放視頻場景中生成完整的時空推理序列,然後通過獎勵函數進行自我校正。獎勵函數由三部分組成:

r_acc衡量答案的正確性;r_thk則反映推理鏈的合理性和完整性,鼓勵模型在生成思考文本時對視覺證據進行充分利用,如計算時序IoU和空間IoU等指標, r_fmt評估推理格式是否符合規範。

團隊特別強調,單一的準確率獎勵無法支撐多模態可解釋推理,因為模型可能“蒙對”答案卻忽略關鍵畫面;只有當推理的過程本身被納入優化目標,模型才會真正學會如何在視覺世界中進行思考。

然而,利用強化學習同時優化時序和空間兩個維度的定位能力是具有很大挑戰的,尤其注意到,空間獎勵(IoU)必須依賴於時間預測的準確性。

具體而言,如果時間預測錯誤,即使空間框位置正確,也無法和真值對應,即時間預測是訓練穩定性的前提。

但是,如果在時序獎勵預測中直接使用嚴格的時間約束,則在訓練初期模型往往得不到獎勵,導致學習停滯;如果始終使用寬鬆的約束,模型雖能得到獎勵,但時序上獎勵容易飽和,預測無法逐漸收斂到精確位置,這樣空間獎勵的計算還是不準確。

因此,團隊提出自適應時間臨近性機制,即在訓練過程中逐步調整時間獎勵的容忍範圍,具體公式如下:

隨著訓練進行,標準差從大逐漸調小,以實現這種從“粗定位”到“精定位”的收斂。

同時,本團隊提出時間門控機制,即在計算空間獎勵之前,首先檢查預測時間戳是否落在真實時間戳附近,只有在時間預測接近真值時(小於設定的閾值),才會計算對應幀上預測框與真值框的 IoU,否則空間獎勵為0。

通過這樣的訓練方式和獎勵設計,模型能夠以更穩定高效的方式訓練。

推理增強

團隊提出的時空證據可以作為一種可驗證的信號,應用於測試時擴展。

具體而言,在推理階段,模型生成多個獨立推理鏈,每個鏈包含時空證據。

從推理鏈中裁剪出對應的關鍵幀區域,並再次輸入模型進行與問題的相關性評分(0、1、2分,分別表示與問題不相關,可能對答題有幫助,對答題非常有幫助)。

每個回答根據其得分進行加權投票,最終輸出置信度最高的答案。

該機制有效避免投票被低質量思維鏈誤導,提高推理的準確性和魯棒性。

實驗結果

Open-o3 Video在多個視頻推理與理解基準上均取得顯著性能。

首先,團隊在時空推理的基準 V-STAR上測試,該基準綜合考察了模型在 “何物(what)—何時(When)—何地(Where)” 三個維度上的性能。

可以看到,Open-o3 Video在Temporal IoU(時間對齊)與Visual IoU(空間對齊)兩項上都取得顯著提升,整體mAM提升+14.4%、 mLGM提升+24.2%,超越GPT-4o與Gemini-2-Flash等大型閉源模型,充分證明其在時空聯合定位與推理一致性上的顯著優勢!

再者,在VideoMME、WorldSense、VideoMMMU與TVGBench四個基準測試上,Open-o3 Video穩定超越基線模型和眾多視頻推理模型。

其在 VideoMME-Long 子任務上達到54.9 %,顯著提升4.1 %;在WorldSense和VideoMMMU偏感知的任務中都相較於基線模型有超越3%的提升,在 TVGBench上mIoU達到20.8,也提升4.5%。

這些結果表明,Open-o3 Video不僅在需要複雜推理的時空任務上表現突出, 在傳統的視頻識別與時間定位任務中也展現了強大的泛化能力。

更重要的是,得益於其顯式的證據鏈設計,模型生成的答案具有可驗證性,在同等準確率下提供了更高的可解釋性與可靠性。

為進一步驗證不同訓練環節、數據構成及獎勵機制對模型性能的影響,團隊進行了系統性的消融研究

實驗結果如表所示,全面評估了訓練策略、獎勵設計、數據類型及數據規模等因素對時空推理性能的貢獻。

從表3可以看出,雙階段訓練機制(SFT + RL) 對模型性能的提升至關重要。

在僅依賴監督學習(Pure SFT)的情況下,模型已能初步學習帶時空標註的推理格式,但整體性能仍受限於固定標籤的模仿。

而單獨的強化學習(Pure RL, GSPO)雖能提升時間與空間一致性,但未經CoT數據的訓練,性能提升有限。

兩者結合後,模型在mAM 和mLGM 上分別提升至33.7%和46.6%。

這表明冷啟動階段的結構化監督提供了必要的推理模板,而基於GSPO的強化階段則進一步優化了模型的時空對齊與證據指向,從而實現穩定而可解釋的推理能力。

表4則展示了兩項關鍵獎勵機制:自適應時間臨近(Adaptive Temporal Proximity) 與時間門控(Temporal Gating)的作用。

若移除自適應臨近機制(w/o Ada.),模型的mLGM下降1.4%;若不使用門控(w/o Gat.),性能下降1.7%。

這印證了團隊的設計初衷:時間臨近機制能緩解訓練初期獎勵稀疏的問題,而門控策略能避免模型在錯誤時間幀上誤判無關物體

二者的結合有效保障了獎勵信號的密集性與精確性,使模型能逐步收斂到真正的時空一致推理模式。

表5進一步驗證了時空標註數據的重要性。

在移除時空標註樣本的條件下(w/o spatio-temporal data),模型性能顯著下降至 mAM 28.3/mLGM 36.2;當引入現有的VideoEspresso數據後雖略有提升,但仍不及團隊自建的高一致性語料。

當使用完整的STGR標註數據時,mLGM達到46.6,說明模型確實從統一的時空監督中學到了穩健的定位與推理能力。這也間接驗證了STGR數據在語言、空間與時間三維一致性上的價值。

表6探討了通用視頻問答數據量對模型整體表現的影響。

實驗表明,適度的通用QA樣本能有效平衡模型的語言生成與證據定位能力。當額外加入15k條通用VideoQA樣本時,模型實現了最佳平衡。

若進一步擴大數據規模,性能反而出現輕微下降,說明過多的通用樣本會稀釋時空標註的監督信號。

因此,團隊最終採用了15k規模的混合數據配置,以在可解釋推理與通用問答之間取得最優折中。

綜上,消融實驗全面驗證了Open-o3 Video的三項核心設計理念,統一的時空數據、雙階段訓練機制與自適應獎勵策略,在提升模型可解釋性與可靠性方面的顯著貢獻。

正是這些設計,使模型能夠在複雜視頻場景中穩定生成“有跡可循”的推理鏈,實現真正基於證據的多模態推理

表7的結果可以看到,在WorldSense與VideoMMMU兩個測試基準上,基於置信度的測試時擴展策略帶來穩定提升,均優於單一推理(Base)與簡單多數投票(Majority Voting)方案。

這表明,顯式的時空證據不僅能在訓練階段提供監督信號,也能在推理階段作為可靠的置信度衡量指標,幫助模型在多樣化思維路徑間做出更穩健的判斷。

然而,通過並行生成多個回覆,團隊也觀察到:面對相對困難的問題,當前模型在實際運行中生成的高質量推理軌跡相對較少。

這意味著,模型的時空證據提取仍有待進一步改進,尤其是在更長的視頻和更復雜多變的場景中,這也是未來開源社區值得深入探索的重要方向。

可視化結果

Open-o3 Video能夠在推理中提供時間與空間證據(時間戳和目標框),以支持其推理的思路和最終的答案,具體可體現在以下可視化實例中:

這些示例分別體現了Open-o3 Video在處理物體外觀識別,動作意圖分析,以及天氣推理上的突出性能。

模型表現上完全不遜色於其他推理模型,且能夠提供一定的證據支撐,讓回覆更加直觀可靠,易於驗證。

下面再看看Demo展示。

團隊相信,Open-o3 Video將推動視頻多模態模型從“能答對”走向“能定位,能解釋”,讓機器真正具備在時空維度上進行有跡可循推理的能力。

未來,團隊將繼續完善時空推理數據與後訓練機制,為更長視頻,更復雜場景下的問答提供有利的時空證據支撐。

另外,團隊論文、代碼和模型全部開源,歡迎大家交流討論!

論文鏈接:https://huggingface.co/papers/2510.20579

代碼鏈接:https://github.com/marinero4972/Open-o3-Video

模型鏈接:https://huggingface.co/marinero4972/Open-o3-Video

本文來自微信公眾號“量子位”,作者:Open-o3 Video團隊,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論