GPT-4o能拼好樂高嗎？首個多步空間推理評測基準來了：閉源模型領跑，但仍遠不及人類

36氪

04-23

GPT-4o會畫吉卜力、會「自拍」，但是能拼好樂高嗎？

你有沒有想過這樣的問題：

多模態大語言模型真的具備理解和推理空間結構的能力嗎？
在多步空間推理任務上，現有 MLLMs 究竟表現得如何？

近年來，隨著多模態大語言模型的迅速發展，視覺理解、圖文對齊、語言生成等能力不斷突破，彷彿人類助手已觸手可及。

但在需要多步驟空間感知與邏輯推理的複雜場景中。

例如機器人裝配、自動駕駛決策、3D物體理解等，多模態大模型的真實“空間智商”究竟如何？

為此，上海人工智能實驗室聯合同濟大學與清華大學，提出了全新基準LEGO-Puzzles，以樂高拼搭為載體，首次系統評估現有多模態大模型（MLLMs）在多步空間推理（multi-step spatial reasoning）任務中的實際表現。

LEGO-Puzzles：全面覆蓋多步空間推理的基準數據集

評估多模態大模型的多步空間推理能力，一個核心挑戰是：如何構建既真實又結構清晰的任務？

相比起現實世界視頻或圖像中的混亂背景和不確定性，LEGO 拼搭過程具備天然的評測優勢。它不僅結構規則、每一步明確、空間變化清晰，還擁有高度可控的任務序列。

不同於視頻幀之間可能存在的時間邏輯跳躍或視角漂移，LEGO 的每一組裝步驟都具有穩定且嚴密的空間邏輯。此外，視覺多樣性也是 LEGO 的一大優勢。

各種形狀、顏色、組合方式帶來了豐富的視覺表達，同時又避免了現實圖像中複雜紋理和背景的干擾。

更重要的是，團隊基於公開LEGO積木源文件自動生成大規模、可擴展的任務數據，既節省標註成本，又保證高質量與一致性。因此，無論從建模邏輯、可控性，還是數據效率來看，LEGO 都是多步空間推理的理想載體。

依託 LEGO 所具備的結構規則性與空間變化可控性，團隊構建了一個專注於多模態大模型多步空間推理能力評估的基準數據集：LEGO-Puzzles。

數據集基於從互聯網收集的開源 LEGO 項目源文件，通過 Bricklink 官方軟件 Studio 進行渲染，並結合 POV-Ray 生成多視角高質量圖像，配合任務模板自動生成問題與選項，最終構建出 1100+ 精心設計的任務樣本。

這些樣本覆蓋 11 種任務類型，按功能劃分為三大類，支持兩種任務形式：視覺問答（VQA）與圖像生成（Image Generation）。

LEGO-Puzzles 的任務設計遵循人類在 LEGO 拼搭中的自然認知流程，從觀察結構、執行操作到整體還原，逐步提升任務難度，具體包括：

空間理解（Spatial Understanding）:判斷樂高組件的高矮關係、鄰接關係和旋轉角度；根據不同視角理解樂高結構。
單步推理（Single-Step Reasoning）：評估下一個組件的旋轉狀態、裝配位置，以及裝配後的下一步狀態和所需組件。
多步推理（Multi-Step Reasoning）：推理裝配過程中的中間狀態、整體裝配順序，以及識別不符合順序的異常狀態。

整體任務設置覆蓋從基礎感知到多步決策，具有高度結構性、序列依賴性與空間多樣性。

同時，圖像生成版本進一步拓展了評測維度，使得 LEGO-Puzzles 不僅能檢驗模型“看圖做題”的理解力，也能測試“看題畫圖”的構建能力。

模型表現如何？閉源領跑，但仍遠不及人類

團隊在 LEGO-Puzzles 基準上系統評測了 20 個多模態大模型（MLLMs），包括GPT-4o、Gemini系列、Claude 3.5，以及Qwen2.5-VL、InternVL等開源模型。涵蓋視覺問答（VQA）與圖像生成兩大類任務。

開源 vs 閉源：能力鴻溝仍明顯

整體來看，閉源模型在所有任務上普遍優於開源模型。GPT-4o 以 57.7% 的平均準確率位居榜首，Gemini-2.0-Flash 緊隨其後（54.0%），而最佳開源模型 Qwen2.5-VL-72B 僅為 46.6%，其餘開源模型大多落在 30%～40% 區間，接近甚至低於隨機基線（27.5%）。

在部分關鍵子任務上，開源模型的表現不僅不穩定，甚至存在系統性失效。例如在“Ordering”任務中，多達 4 個開源模型準確率為 0，而在“Height”任務中，有一半模型準確率低於隨機水平。這表明當前多數開源 MLLMs 還無法建立起有效的空間構型表示或推理路徑，特別是在三維結構感知和多步狀態理解方面存在根本短板。

MLLMs vs 人類：距離真實智能還有多遠？

為了更直觀地比較 MLLMs 與人類在空間任務上的表現，團隊構建了LEGO-Puzzles-Lite 子集，從完整數據集中每類任務中隨機抽取 20 題，總計 220 個樣本，邀請 30 位具備相關專業背景的專家參與答題。

實驗結果顯示：人類在所有任務上的平均準確率為 93.6%，幾乎在所有任務中都表現穩定。而 GPT-4o 雖然是最強模型，在該子集上僅達到 59.1%。其他模型表現更為遜色，Gemini-2.0-Flash 為 55.5%，Qwen2.5-VL-72B 為 48.2% 。

特別是在多步推理任務中，模型與人類之間的差距進一步被放大。以“Backwards”和“Ordering”為例，GPT-4o 的得分落在 55% 和 60%，而人類均為 95%。這充分說明，當前模型在處理多步空間推理能力上，與人類之間仍有顯著認知鴻溝。

圖像生成：看得見的空間推理“災難現場”

除了視覺問答外，LEGO-Puzzles 還包含了一個專門用於評估視覺生成能力的子集，設計了 5 類圖像生成任務，分別對應於主任務中的 Rotation、Multiview、Next-Step、Position與 Dependency。

每個樣本要求模型在給定拼搭狀態和操作指令的前提下，生成目標結構圖像。團隊從主數據集中為這五類任務擴展構建圖像生成輸入輸出，並邀請人工專家對生成結果進行雙重維度評分：

Appearance（App）：圖像是否在整體結構上保留了目標狀態的特徵；
Instruction Following（IF）：圖像是否準確反映了指定的拼搭操作。

評測模型包含 GPT-4o、Gemini-2.0-Flash，以及開源的 Emu2、GILL、Anole 等具備圖像生成能力的模型。

結果表明，僅有 Gemini-2.0-Flash 在兩項指標上均達到中等及以上水平（App: 2.15 / IF: 1.17），在結構保真度和指令執行力之間保持了較好的平衡。

相比之下，GPT-4o 的生成過程更像是基於指令語義進行場景重構，而非逐步編輯輸入圖像。這種策略使得它在指令理解方面表現尚可，但在結構還原方面存在明顯不足，生成圖像在細節與整體結構上常常偏離原始圖像，導致其 appearance 得分顯著低於 Gemini-2.0-Flash。

需要說明的是，本次評測使用的是 2025 年 3 月 6 日前的 GPT-4o 版本，團隊也正在測試新版 GPT-4o 的圖像生成能力，後續評測中將及時更新。

Emu2 的圖像生成與原圖外觀相似度較高，但幾乎無法體現任何操作變化，呈現出典型的“圖像重建”行為，缺乏對任務指令的響應。

而 GILL 和 Anole 在所有子任務中基本失效，生成結果與目標結構無關，IF 得分接近於 0，說明它們在空間理解與執行方面均不具備有效能力。

一步能答對，五步就亂了？多步推理讓模型“斷片”

為了更深入評估 MLLMs 在複雜空間序列任務中的推理能力，團隊引入了一個針對多步構建鏈條的擴展實驗：Next-k-Step。該實驗建立在原有的單步任務“Next-Step”之上，進一步要求模型在連續執行多個拼搭操作後，識別正確的最終拼搭狀態，模擬更貼近真實場景中的多步空間構建推理。

實驗設置中，團隊控制拼搭操作步數 k 從 1 增加到 5，逐步加深推理鏈長度，對模型的連貫性建模與狀態記憶能力提出更高要求。輸入包括當前 LEGO 狀態、接下來的 k 個組件圖，以及對應的目標圖像和候選選項；模型需從中判斷哪一張是合理的拼搭結果。團隊還引入 Chain-of-Thought（CoT）提示詞，探索“逐步思考”是否能在視覺場景中帶來推理性能提升。

結果顯示，大多數模型在 k=1 時仍有一定推理能力，如 GPT-4o 可達 75%（使用 CoT），Gemini-2.0-Flash 高達 85%。

但隨著 k 增大，準確率顯著下滑，GPT-4o 在 k=4 和 k=5 情況下幾乎完全失效，準確率降至 0–5%。

即使引入 CoT 提示，大部分模型在 k > 2 後仍無法維持有效推理路徑，說明語言模型中常見的 CoT 技術對視覺多步空間任務的幫助極為有限。

值得注意的是，Qwen2.5-VL-72B 在不同步數下表現相對穩定，準確率始終維持在 65%左右，展現出一定的結構記憶能力；而 InternVL-2.5-78B 則在多數情境下準確率接近隨機水平。

這一系列實驗揭示出：當前主流 MLLMs 在處理多步驟空間邏輯時，存在明顯的“推理衰減”問題。

總結

LEGO-Puzzles是一個專為評估多模態大模型在複雜空間推理任務中的能力而設計的全新基準，涵蓋 1100+ 任務實例，覆蓋從靜態結構識別到多步時序重建在內的 11 類子任務。數據集同時支持 VQA 與圖像生成，為模型提供了多模態輸入、多樣化輸出的完整測評路徑。

團隊對當前主流的 20+ 多模態大模型進行了系統性評估，全面揭示了它們在三維空間理解、多步驟空間推理、指令驅動圖像生成等關鍵能力上的表現瓶頸。實驗還進一步引入了 Next-k-Step 和 CoT 推理等機制，深入探查了模型在推理鏈條加深時的穩定性與泛化能力。

LEGO-Puzzles 現已集成至 VLMEvalKit，支持一鍵評測，快速定位模型的空間推理能力短板。

Paper：

https://arxiv.org/abs/2503.19990

Github：

https://github.com/Tangkexian/LEGO-Puzzles

HomePage：

https://tangkexian.github.io/LEGO-Puzzles

本文來自微信公眾號“量子位”，作者：關注前沿科技，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論