GPT-4o가 레고를 조립할 수 있나요? 최초의 다단계 공간 추론 벤치마크가 출시되었습니다. 폐쇄형 소스 모델이 앞서지만 여전히 인간보다 훨씬 뒤처져 있습니다.

avatar
36氪
04-23
이 기사는 기계로 번역되었습니다
원문 표시

GPT-4o가 지브리를 그리고, 「셀카」 찍을 수 있지만, 레고를 제대로 맞출 수 있을까?

이런 질문을 해본 적 있나요:

다중 모달 대규모 언어 모델이 정말로 공간 구조를 이해하고 추론할 수 있는 능력이 있을까?

다단계 공간 추론 작업에서 기존 MLLMs는 실제로 어떤 성능을 보일까?

최근 몇 년간 다중 모달 대규모 언어 모델의 급속한 발전으로 시각적 이해, 이미지-텍스트 정렬, 언어 생성 등의 능력이 계속해서 돌파구를 마련하며, 마치 인간 보조자가 바로 눈앞에 있는 것 같습니다.

하지만 다단계 공간 인식과 논리적 추론이 필요한 복잡한 시나리오에서는 어떨까요.

예를 들어 로봇 조립, 자율주행 의사결정, 3D 객체 이해 등에서 다중 모달 대규모 모델의 진정한 "공간 지능"은 과연 어느 정도일까요?

이를 위해 상하이 인공지능 연구소는 동제대학 및 칭화대학과 협력하여 완전히 새로운 기준인 LEGO-Puzzles를 제안했으며, 레고 조립을 매개체로 하여 기존 다중 모달 대규모 모델(MLLMs)의 다단계 공간 추론 작업에서의 실제 성능을 최초로 체계적으로 평가했습니다.

[이하 생략]

평가 모델에는 GPT-4o, 제미니(Gemini)-2.0-Flash, 그리고 Emu2, GILL, Anole 등 이미지 생성 능력을 갖춘 오픈소스 모델이 포함됩니다.

결과에 따르면, 제미니(Gemini)-2.0-Flash만이 두 가지 지표에서 중간 수준 이상을 달성했습니다(앱: 2.15 / IF: 1.17), 구조적 충실도와 명령 실행력 사이에서 좋은 균형을 유지했습니다.

반면에, GPT-4o의 생성 과정은 입력 이미지를 단계적으로 편집하기보다는 명령어 의미를 기반으로 장면을 재구성하는 것과 더 유사합니다. 이러한 전략으로 명령어 이해 측면에서는 괜찮은 성능을 보였지만, 구조 복원 측면에서는 분명한 부족함이 있었으며, 생성된 이미지는 세부 사항과 전체 구조에서 원본 이미지에서 자주 벗어나, 결과적으로 외관 점수가 제미니(Gemini)-2.0-Flash에 비해 현저히 낮았습니다.

언급할 점은, 이번 평가에 사용된 GPT-4o 버전은 2025년 3월 6일 이전 버전이며, 팀에서는 새로운 버전의 GPT-4o 이미지 생성 능력을 테스트하고 있어 후속 평가에서 신속히 업데이트할 예정입니다.

Emu2는 원본 이미지와 외관 유사성이 높았지만, 거의 어떤 작업 변화도 나타내지 못했고, 전형적인 "이미지 재구성" 행동을 보였으며 작업 명령에 대한 응답이 부족했습니다.

GILL과 Anole은 거의 모든 하위 작업에서 기본적으로 실패했고, 생성된 결과는 목표 구조와 무관했으며, IF 점수가 0에 가까워 공간 이해와 실행 측면에서 효과적인 능력이 없음을 보여주었습니다.

한 단계는 맞추지만, 다섯 단계에서는 혼란스러워? 다단계 추론으로 모델 "단절"

다중 모달 대규모 언어 모델(MLLMs)의 복잡한 공간 순차 작업에서의 추론 능력을 더 깊이 평가하기 위해, 팀은 다단계 연결 체인을 위한 확장 실험인 Next-k-Step을 도입했습니다. 이 실험은 기존의 단일 단계 작업 "Next-Step" 위에 구축되어, 모델이 연속적인 여러 조립 작업 후 올바른 최종 조립 상태를 식별하도록 요구하여 실제 시나리오에 더 가까운 다단계 공간 구축 추론을 시뮬레이션합니다.

실험 설정에서 팀은 조립 작업 단계 k를 1에서 5로 점진적으로 증가시켜 추론 체인의 길이를 깊게 하고, 모델의 일관성 모델링 및 상태 기억 능력에 더 높은 요구사항을 부여했습니다. 입력에는 현재 레고 상태, 다음 k개 구성 요소 이미지, 해당 목표 이미지 및 후보 옵션이 포함되며, 모델은 이 중에서 합리적인 조립 결과를 판단해야 합니다. 팀은 또한 Chain-of-Thought(CoT) 프롬프트를 도입하여 "단계별 사고"가 시각적 장면에서 추론 성능 향상을 가져올 수 있는지 탐색했습니다.

결과에 따르면, 대부분의 모델은 k=1일 때 여전히 일정 수준의 추론 능력을 보였습니다. 예를 들어 GPT-4o는 75%(CoT 사용 시), 제미니(Gemini)-2.0-Flash는 85%까지 도달했습니다.

하지만 k가 증가함에 따라 정확도는 크게 감소했고, GPT-4o는 k=4와 k=5 상황에서 거의 완전히 무력화되어 정확도가 0-5%로 떨어졌습니다.

CoT 프롬프트를 도입해도 대부분의 모델은 k > 2 이후 효과적인 추론 경로를 유지할 수 없었으며, 이는 언어 모델에서 흔히 사용되는 CoT 기술이 시각적 다단계 공간 작업에 도움이 매우 제한적임을 보여줍니다.

주목할 만한 점은, Qwen2.5-VL-72B가 다양한 단계에서 상대적으로 안정적인 성능을 보였고 정확도를 항상 65% 수준으로 유지하여 일정한 구조 기억 능력을 보여주었습니다. 반면 InternVL-2.5-78B는 대부분의 상황에서 정확도가 무작위 수준에 가까웠습니다.

이러한 일련의 실험은 다음을 밝혀냈습니다: 현재 주류 다중 모달 대규모 언어 모델은 다단계 공간 논리를 처리할 때 명백한 "추론 감소" 문제가 있습니다.

요약

LEGO-Puzzles는 다중 모달 대규모 언어 모델의 복잡한 공간 추론 작업 능력을 평가하기 위해 특별히 설계된 완전히 새로운 벤치마크로, 1100개 이상의 작업 사례를 포함하며 정적 구조 인식부터 다단계 시간적 재구성까지 11가지 하위 작업을 다룹니다. 데이터 세트는 시각적 질의응답(VQA)과 이미지 생성을 동시에 지원하여 모델에 다중 모달 입력과 다양한 출력의 완전한 평가 경로를 제공합니다.

팀은 현재 주류 20개 이상의 다중 모달 대규모 언어 모델을 체계적으로 평가하여 3차원 공간 이해, 다단계 공간 추론, 명령어 기반 이미지 생성 등 핵심 능력의 성능 병목 현상을 전면적으로 드러냈습니다. 실험에서는 Next-k-Step 및 CoT 추론 등 메커니즘을 추가로 도입하여 추론 체인이 깊어질 때 모델의 안정성과 일반화 능력을 심층적으로 조사했습니다.

LEGO-Puzzles는 현재 VLMEvalKit에 통합되어 있어 원클릭으로 평가가 가능하고, 모델의 공간 추론 능력 약점을 신속하게 파악할 수 있습니다.

논문:

https://arxiv.org/abs/2503.19990

깃허브:

https://github.com/Tangkexian/LEGO-Puzzles

홈페이지:

https://tangkexian.github.io/LEGO-Puzzles

본 기사는 위챗 공식 계정 "량자위"에서 제공되었으며, 작성자는 첨단 기술에 주목하는 36kr의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트