구글 비전 바나나: 컴퓨터 비전의 "GPT-3의 순간"인가? 원본 이미지 모델이 전용 시각 이해 모델보다 뛰어난 성능을 보였다.
이 기사는 기계로 번역되었습니다
원문 표시
ME 뉴스에 따르면, Beating의 모니터링 결과 4월 23일(UTC+8)에 Google 팀(Kaiming He, Saining Xie 포함)이 Vision Banana라는 모델을 제안하는 논문을 발표했습니다. 이 모델은 Google 팀의 이미지 생성 모델인 Nano Banana Pro(Gemini 3 Pro Image)를 경량화된 명령어로 미세 조정하여 범용 시각 이해 모델로 변환한 것입니다. 핵심 접근 방식은 모든 시각 작업의 출력을 RGB 이미지로 균일하게 파라미터화하는 것입니다. 이를 통해 분할, 깊이 추정, 표면 법선 추정 등의 인식 작업을 이미지 생성을 통해 완료할 수 있으며, 각 작업 유형에 대한 전용 아키텍처나 학습 손실 함수가 필요하지 않습니다. 평가는 이미지 분할과 3D 기하 추론이라는 두 가지 주요 작업 범주를 다룹니다. 분할 분야에서 의미론적 분할(이미지의 각 픽셀에 "도로 표면", "보행자", "차량"과 같은 범주 레이블 지정)은 Cityscapes 데이터셋에서 전용 분할 모델인 SAM 3보다 4.7% 포인트 높은 성능을 보였습니다. 자연어 설명(예: "왼쪽에 모자를 쓴 개")을 기반으로 대응하는 객체를 찾고 분할하는 인덱스 기반 표현 분할에서도 SAM 3 Agent보다 우수한 성능을 보였습니다. 하지만 인스턴스 분할(이미지에서 다섯 마리의 개를 구분하는 것과 같이 동일한 범주에 속하는 여러 개체를 구별하는 작업)에서는 여전히 SAM 3에 비해 뒤처집니다. 3D 환경에서는 메트릭 깊이 추정(단일 이미지에서 각 픽셀과 카메라 사이의 실제 물리적 거리를 계산하는 작업)에서 4개의 표준 데이터셋에서 평균 0.929의 정확도를 달성했는데, 이는 전용 모델인 Depth Anything V3의 0.918보다 높은 수치입니다. 또한, 이 모델은 실제 깊이 데이터를 사용하지 않고 합성 데이터만으로 학습되었기 때문에 추론 과정에서 카메라 매개변수가 필요하지 않습니다. 표면 법선 추정(객체 표면의 방향을 추론하는 작업)에서는 3개의 실내 벤치마크에서 가장 좋은 결과를 얻었습니다. 미세 조정은 단순히 소량의 시각적 작업 데이터를 기존 이미지 생성 학습 데이터에 혼합하는 것으로, 모델의 이미지 생성 능력은 크게 영향을 받지 않습니다. 생성 품질 평가에서 기존 Nano Banana Pro와 동일한 수준을 유지합니다. 이 논문은 시각 영역에서의 이미지 생성 사전 학습의 역할이 언어 영역에서의 텍스트 생성 사전 학습과 유사하다고 주장합니다. 즉, 모델은 이미지 생성 학습 과정에서 이미지를 이해하는 데 필요한 내부 표현을 이미 학습했으며, 미세 조정은 이러한 표현을 활성화하는 역할을 한다는 것입니다. (출처: ME)
출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유





