강력한 생성, 약한 추론: GPT-4o의 시각적 단점

avatar
36氪
04-21
이 기사는 기계로 번역되었습니다
원문 표시

AI에게 "왼쪽"에 서 있는 개를 그리라고 하면서, 미리 "왼쪽이 오른쪽"이라고 알려주면 반응할 수 있을까요?

최근 UCLA의 새로운 연구에서는 신중하게 설계된 일련의 실험을 통해 GPT-4o가 이미지 이해 및 추론에 있어 단점을 보인다는 사실을 밝혀냈습니다. 그림은 아름답지만, 실제로는 사용자가 말하는 내용을 이해하지 못할 수도 있습니다.

이 논문의 주요 내용은 매우 직접적이다. GPT-4o의 그림 그리기 능력은 정말 놀랍지만, 이미지 이해, 맥락적 추론, 다단계 논리 사슬에 관해서는 여전히 분명한 단점이 있습니다.

이는 "좋아 보이지만 실제로는 아직 거기에 이르지 못했다"는 AI의 미묘한 당혹감을 떠올리게 합니다.

평소처럼 세 가지 주요 실험 부분을 하나씩 설명해 드리겠습니다. 이를 통해 이 연구의 흐름이 무엇을 발견했는지 완벽하게 이해하실 수 있기를 바랍니다.

01. 글로벌 규칙 준수 실패

사실 이 부분은 매우 흥미롭습니다. 이는 우리가 친구들과 흔히 하는 농담과 비슷합니다. "이제부터 내가 왼쪽이라고 하면 실제로는 오른쪽이 될 거야"라고 말하고, 그에게 "왼쪽으로 한 발짝 가봐"라고 하면 그가 정말로 오른쪽으로 갈지 볼 수 있을 겁니다.

UCLA 연구진은 GPT-4o에 대해서도 비슷한 함정을 놓았습니다. "이제부터 '왼쪽'은 '오른쪽'을 가리키고" "모든 숫자는 2씩 줄어듭니다"라고 말한 후, "왼쪽에 개를 그리세요"와 "새를 5마리 그리세요"라고 요구했습니다.

AI가 하나의 사례에서 추론을 도출할 수 있을 줄 알았는데, 결과는—

개는 여전히 왼쪽에 있고, 새도 다섯 마리나 있는데, 이는 이전에 재정의된 규칙을 완전히 무시한 것입니다.

이것은 무슨 뜻인가요?

GPT-4o는 이미지를 생성할 때 여전히 명령을 문자 그대로 이해하며 , 글로벌 재정의와 위의 설정은 "그리기 두뇌"에 전혀 들어갈 수 없습니다.

당신은 그것이 "유연하고 적응력이 뛰어나야 한다"고 생각하지만, 그것은 단지 "표면을 충실히 실행"할 뿐이며, 이는 인간의 영리함에 훨씬 못 미칩니다.

02. 이미지 편집: 얕은 의미 이해 노출

두 번째 테스트는 더 어려웠는데, 연구원들은 GPT-4o에게 사진을 편집하라고 요구했습니다.

예를 들어,

"물속에 비친 말의 모습만 사자로 바꾸고, 말 자체는 건드리지 마세요."

그 결과, AI가 행동을 취하자마자 말과 반사상이 완전히 바뀌었습니다.

예를 들어,

"사진 속에 앉아 있는 사람들을 삭제하세요."

그 결과, 배경에 서 있던 사람들도 한꺼번에 잡히게 되었습니다.

다음 예는 문제를 직접적으로 드러냅니다.

GPT-4o는 "로컬 수정" 및 "의미적 제한"과 같은 작업의 한계를 파악하지 못합니다.

그것은 "반사"와 "실체", "앉음"과 "서 있음"을 정확하게 구분하지 못하며, 그 작용은 종종 "과도하거나 부족"하며 잘못된 곳으로 이동합니다.

솔직히 말해서, AI가 이미지 편집을 이해하는 정도는 "사람이 사진을 보고 장면을 이해하는 수준"과는 거리가 멉니다.

이는 방금 PS 사용법을 배운 초보자에게 사진을 편집하라고 묻는 것과 비슷합니다. 그는 전혀 모르고 추측에만 의존할 수밖에 없습니다.

03. 다단계 추론과 조건 논리: 완전히 엉터리

가장 치명적인 단점은 '다단계 추론'과 '조건부 판단' 링크에 나타납니다.

예를 들어,

먼저 GPT-4o에게 개와 고양이를 그리라고 한 다음, "고양이가 없으면 개를 고양이로 바꾸고 해변으로 이동하세요."라고 말합니다.

하지만 사실, 첫 번째 사진의 고양이는 이미 존재합니다.

논리적으로 보면, AI는 현재 아무것도 바꾸지 못할 것입니다.

하지만 여전히 개를 고양이로 바꿔서 전체 장면을 바꿔 놓았습니다. 상황이 완전히 잘못 판단되었고 논리도 엉망이었습니다.

비슷한 예가 많이 있습니다. AI는 복잡한 조건을 파악하지 못하는 경우가 많거나, 충돌이 발생하든 발생하지 않든 관계없이 단순히 "모든 지시를 따릅니다".

이는 핵심적인 문제를 보여줍니다.

GPT-4o는 상황에 맞는 추론 기능이 없으므로 복잡한 이미지 편집 작업에서는 지능적인 판단을 내릴 수 없습니다.

"전제를 이해하고, 논리적 판단을 내리고, 행동으로 옮기는" 과정은 아직 먼 미래임이 분명합니다.

일반적으로 오늘날의 AI는 '정교한 명령 기계'에 더 가깝습니다. 당신이 그리라고 한 것은 무엇이든 그릴 수 있지만, "규칙을 이해하고, 장면을 읽고, 한 예에서 다른 예를 추론해내는" 능력을 원한다면, 실제로는 몇 차례 더 진화가 필요할 것입니다.

이는 또한 AI가 처음으로 텍스트를 생성하는 법을 배웠을 때를 떠올리게 합니다. 모두가 그것이 "글을 쓰고 말할 수 있다"고 생각했지만, 이야기를 만들고 논리를 세우라고 하면 여전히 다양한 크기의 버그가 있을 것입니다.

현재 GPT-4o가 이미지 분야에서 직면한 딜레마는 실제로 과거 텍스트 AI가 직면했던 딜레마와 동일합니다.

그림을 그릴 수는 있지만 "이해"하지는 못할 수도 있습니다. 수정할 수는 있지만, "정확하게" 작성할 수는 없을 수도 있습니다. 지시를 따를 수는 있지만, "배운 내용을 다른 상황에 적용"할 수는 없을 수도 있습니다. 이는 아마도 "세상을 진정으로 이해하는" AI와 우리 사이에 가장 경계해야 할, 그리고 예상되는 장애물일 것입니다.

아마도 다음 기술적 혁신은 여기에서 시작될 것입니다. 하지만 적어도 지금 당장은 거기에 이르지 못했습니다.

~을 통해

https://the-decoder.com/gpt-4o-makes-beautiful-images-but-fails-basic-reasoning-tests-ucla-study-finds/

본 기사는 WeChat 공개 계정 "빅데이터 다이제스트"(ID: BigDataDigest) 에서 발췌하였으며, 저자는 Digest Jun이고, 36Kr.의 출판 허가를 받았습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트