다중 모달 대규모 언어 모델(Multimodal Large Language Models, MLLM)이 빠르게 부상하고 있으며, 단일 모달만 이해할 수 있었던 과거에서 벗어나 현재는 이미지, 텍스트, 오디오, 심지어 비디오 등 다양한 모달을 동시에 이해하고 생성할 수 있게 되었습니다.
"다중 모달 대규모 모델을 어떻게 전면적이고 객관적으로 평가할 것인가"라는 문제에 대해, 과거에는 여러 작업의 점수를 쌓는 방식으로 평가했습니다. 하지만 단순히 "더 많은 작업에서 더 높은 점수"로 모델의 강점을 측정하는 것은 신뢰할 수 없으며, 일부 작업에서 뛰어난 성과를 보인다고 해서 반드시 모든 영역에서 인간 지능 수준에 더 가깝다는 의미는 아닙니다.
이로 인해 AI 경쟁이 "하반기"에 접어들면서(최근 OpenAI 연구원 요순우가 제기한 공감대 관점), 과학적인 평가 메커니즘을 설계하는 것이 승패를 결정짓는 핵심 열쇠로 부각되었습니다.
최근 ICML'25 (Spotlight)에 게재된 논문 《On Path to Multimodal Generalist: General-Level and General-Bench》는 General-Level이라는 완전히 새로운 평가 프레임워크와 이에 맞는 데이터셋 General-Bench를 제안하여 이 주제에 대한 근본적인 해답과 돌파구를 마련했습니다.
이 평가 프레임워크는 이미 커뮤니티에 적용되었습니다. 해당 논문의 프로젝트 팀은 700개 이상의 작업을 포함하고, 5대 일반 모달, 29개 영역, 32만 개 이상의 테스트 데이터를 커버하는 초대형 평가 기준과 업계에서 가장 완벽한 다중 모달 만능 모델 순위표 리더보드를 구축하여 다양한 다중 모달 만능 대규모 모델을 공정하고 공평하며 포괄적으로 비교할 수 있는 기반 시설을 제공했습니다.
Scope-A: 전체 영웅 순위: "전체 모달리티 만능 인재" 대결.
이는 가장 어렵고 가장 광범위한 주요 순위표입니다: 참가 모델은 General-Bench 전체 세트를 통과해야 하며, 이는 지원되는 모든 모달리티와 모든 범주 작업의 완전한 평가를 포함합니다.
Scope-A는 진정한 다재다능한 멀티모달 기본 모델을 선발하고, 복잡한 전체 시나리오에서의 종합 능력을 검증하는 것을 목표로 합니다.
Scope-B: 모달리티 통합 영웅 순위: "단일 모달리티 만능 인재" 경쟁.
Scope-B는 여러 하위 순위표를 포함하며, 각각은 특정 모달리티 또는 제한된 모달리티 조합을 대상으로 합니다.
구체적으로, Scope-B는 7개의 병렬 순위표로 나뉩니다: 4개는 단일 모달리티 순위표(순수 시각, 순수 음성, 순수 비디오, 순수 3D), 나머지 3개는 모달리티 조합 순위표(예: 이미지+텍스트, 비디오+텍스트 등 크로스 모달리티 조합).
참가 모델은 선택한 모달리티 범위 내에서 다중 작업 평가를 완료하면 되며, 다른 모달리티의 데이터는 고려하지 않습니다.
Scope-C: 이해/생성 영웅 순위: "패러다임 능력" 그룹 경쟁.
Scope-C는 평가를 이해 유형 작업과 생성 유형 작업의 두 가지 패러다임으로 더욱 세분화하여, 각 모달리티에서 별도의 순위표를 설정합니다. 구체적으로, 이미지, 비디오, 오디오, 텍스트 등의 모달리티에서 각각 "이해 능력 순위표"와 "생성 능력 순위표"를 만들어 총 8개의 순위표를 구성합니다.
Scope-C 평가는 동일 모달리티 내 작업 패러다임 간 전이 능력을 강조합니다: 예를 들어, 한 모델이 시각적 이해 순위표에서 우수한 성과를 보이면, 시각적 분류, 탐지 등 다양한 이해 작업 간에 지식을 공유할 수 있음을 의미합니다; 시각적 생성 순위표에서 높은 점수를 얻으면 설명, 그리기 등 다양한 생성 작업에서 범용 능력을 가짐을 의미합니다.
작업 패러다임의 범위를 제한했기 때문에, Scope-C는 리소스 요구사항이 낮고(3성 난이도), 경량 모델 또는 리소스가 제한된 팀의 참여에 매우 적합합니다.
Scope-D: 기술 전문성 순위: "세부 기술" 경기장.
이는 가장 세분화되고 참여 문턱이 가장 낮은 순위표입니다. Scope-D는 General-Bench의 작업을 구체적인 기술 또는 작업 유형에 따라 추가로 클러스터링하여, 각 소분류에 대해 별도의 순위표를 만듭니다.
예를 들어: "시각적 질의응답(VQA) 순위표", "이미지 캡션 생성 순위표", "음성 인식 순위표", "3D 객체 탐지 순위표" 등, 각 순위표는 밀접하게 관련된 작업 그룹을 포함합니다.
참가 모델은 특정 기술 유형에 대해서만 결과를 제출할 수 있어, 자신이 가장 잘하는 좁은 영역에서 다른 모델과 비교할 수 있습니다.
이러한 기술 순위표 메커니즘은 모델이 점진적으로 발전하도록 장려합니다: 먼저 단일 기술에서 최고의 성과를 달성한 후, 점차 더 광범위한 다중 작업, 다중 모달리티 평가에 도전합니다.
Leaderboard 링크는 문서 끝에서 확인할 수 있습니다.
반대로, 일부 오픈소스 모델은 멀티태스크 훈련을 통해 전면적으로 발전하여 SEED-LLaMA, Unified-IO 등과 같이 Level-2 범주에 진입했습니다. 이 레벨의 모델은 주로 이미지 모달리티에 능력이 분포되어 있으며, 단일 모달의 평균 점수는 대략 10-20점 정도로, 아직 큰 개선 여지가 있습니다.
현재 Level-2의 1, 2, 3위는 각각 Unified-io-2-XXL, AnyGPT, NExT-GPT-V1.5입니다.
Level-3(과제 협업)
이 레벨에 모인 멀티모달 대규모 모델은 Level-2에 비해 훨씬 적으며, 이들은 여러 과제에서 전문 모델을 능가하며 협업 학습으로 인한 성능 약진을 보여줍니다.
2024년 이후의 많은 신규 모델들이 이 범주에 진입했으며, 오픈소스 Sa2VA-26B, LLaVA-One-Vision-72B, Qwen2-VL-72B 시리즈를 포함합니다. 이러한 모델들은 보통 수백억 개의 파라미터를 가지고 있으며 대규모 멀티모달, 멀티태스크 훈련을 거쳐 일부 벤치마크에서 기존 단일 과제 SOTA 성과를 초월했습니다.
이는 협업 효과의 가치를 증명합니다: 통합된 멀티태스크 훈련은 모델이 더 범용적인 표현을 학습하게 하여 관련 과제에서 서로의 성능을 촉진할 수 있습니다.
오히려 OpenAI의 GPT4-o, GPT4-V와 Anthropic의 Claude-3.5 같은 일부 폐쇄형 대규모 모델은 Level-3에서 충분히 앞서지 못했습니다.
Level-3 모델의 전체 평균 점수 범위는 Level-2에 비해 계속 낮아졌으며, 이는 본 레벨의 점수 상황이 더욱 어렵다는 것을 의미합니다.
(이하 생략)




