GPT-4o가 Midjourney의 일자리를 빼앗은 방법

avatar
36氪
04-11
이 기사는 기계로 번역되었습니다
원문 표시

2025년 3월 26일, OpenAI는 이른 아침에 GPT-4o의 기본 멀티모달 이미지 생성 기능이 공식 출시되었다고 공식 발표했습니다. 사용자는 더 이상 OpenAI의 텍스트 기반 그래프 모델인 DALL-E에 로그인할 필요가 없으며, ChatGPT 애플리케이션에서 4o를 직접 호출하여 이미지를 생성하고 수정할 수 있습니다.

하룻밤 사이에 AI가 만든 지브리 이미지가 X 등의 소셜 미디어에서 급속도로 퍼졌고, 인터넷은 2차원 스타일의 온화한 물결로 넘쳐났습니다. 사람들은 셀카를 업로드하고 "지브리 스타일"이라고 입력했습니다. 몇 초 후, 하야오 미야자키 애니메이션의 아름다움과 환상이 그들의 머리카락과 옷 사이로 흘러갔습니다. OpenAI의 창립자인 울트라맨도 자신의 지브리 아바타를 게시하면서 열풍에 불을 지폈습니다.

하지만 지브리의 인기는 여러 이유 중 하나일 뿐이다. 더 중요한 점은 GPT-4o의 그림 실력이 문학 그림 분야의 내재적 패턴을 깨뜨렸다는 것입니다. 처음으로, Midjourney와 같은 수직형 애플리케이션이 주도하던 트랙이 대형 모델에 의해 도전을 받게 되었습니다.

사람들이 Midjourney를 사용하여 사진을 생성할 때 여전히 치명적인 문제에 직면한다는 것이 밝혀졌습니다. 무작위성이 너무 강하다는 것입니다. 프롬프트 단어가 너무 복잡하면 세부 사항 복원의 정도가 크게 감소합니다. GPT-4o의 이미지 제어 기능의 도약으로 인간은 AI 아티스트와 여러 차례 대화를 나눠서 사진을 정확하게 수정하는 매력을 처음으로 느낄 수 있게 되었습니다.

그렇다면 인간이 대화만 할 수 있다고 생각하는 범용 대형 모델인 GPT-4o가 어떻게 문예 이미지 분야의 프로 플레이어인 미드저니를 능가할 수 있었을까?

01 올라운드 페인터

사실, Midjourney와 유사한 애플리케이션은 1년 전만 해도 지브리, 사이버펑크, 초현실주의 등 다양한 스타일의 이미지를 생성할 수 있었으며, 그림의 섬세함과 해상도 면에서 GPT-4o보다 약간 더 뛰어났습니다. 하지만 GPT-4o의 뛰어난 점은 예술 분야에서 원시 이미지의 품질과 정면으로 경쟁하지 않고 대신 응용 한계, 이미지 보정 및 수정, 학제간 기능 등에서 다른 제품을 앞지른 데 있습니다.

첫째, 자연어 대화 능력의 향상으로 사용 문턱이 크게 낮아졌습니다. 전통 문화 그래픽 분야에서는 사용자가 스타일, 렌즈, 색상, 각도, 배경, 피사체 등 복잡하게 구성된 일련의 프롬프트를 완벽하게 숙지해야 합니다. 사소한 실수가 큰 오류로 이어질 수 있습니다. GPT-4o는 자연어 명령을 정확하게 이해할 수 있으므로, 친구와 소통하듯이 소통하기만 하면 그림이 현실이 됩니다.

자연어는 쉬운 언어, 즉 일상생활에서 말하는 언어입니다. 예를 들어, 폭포 사진이 필요하다면 GPT-4o에게 "이른 아침 울창한 숲 속에 무지개 폭포를 만들어주세요"라고 말하면 됩니다. 하지만 Midjourney 대면 아래 그림과 같이 고도로 구조화된 즉각적인 지시를 사용하여 이미지의 주요 내용은 무엇인지, 배경의 색상은 무엇인지, 앙각인지, 하각인지, 직선인지, 스타일은 유화인지, 고전인지, 사이버펑크인지 등을 알려줘야 합니다. 이상적인 효과를 얻으려면 이 정도까지 세분화해야 하지만, 아무리 세분화해도 여전히 불필요한 세부 사항이 튀어나와서 불필요한 세부 사항을 추가하는 그림 요소가 있을 것입니다.

두 번째는 멀티모달 기능으로 인한 이미지 생성 및 이미지 수정 기능의 출시입니다 . Midjourney와 같은 애플리케이션은 텍스트 명령만 보낼 수 있고 이미지를 업로드한 후 수정하거나 AI가 이미지를 생성한 후 이미지의 해상도, 색상 또는 배경을 조정하는 기능을 지원하지 않습니다. 결과 이미지가 이상적이지 않으면 첫 번째 단계로 돌아가 프롬프트 단어를 다시 작성하여 운을 시험해 볼 수 있습니다. 이전에 생성된 이미지는 유효하지 않습니다.

GPT-4o의 장점은 사용자가 사진을 업로드하고 여러 번 수정할 수 있다는 것입니다. AI가 생성한 것일 수도 있고, 스스로 가져온 것일 수도 있습니다. 예를 들어, 전신 사진을 업로드하고, 머리 모양을 큰 웨이브로 바꾸고, 쇼핑 카트에 있는 옷을 치마로 바꿔서 몸에 어떤 효과가 나타나는지 확인해 보세요. 기존 사진에 대한 사진 편집 및 수정을 지원하므로, 장벽이 높은 사진 편집 기술인 PS를 배울 필요가 없습니다.

더욱 놀라운 점은 여러 차례의 대화가 가능하여 만족할 때까지 원본 이미지를 무제한으로 변경할 수 있다는 것입니다. 머리 스타일을 바꾸거나, 배경을 사막으로 바꾸거나, 필터 스타일을 조정할 수 있습니다. 당신이 원하는 한, 그것은 당신을 만족시킬 것입니다.

이미지 출처: Xiaohongshu@Mr.Tangxiansen

상호작용 임계값이 낮아지고 이미지 제어 기능이 향상된 것 외에도 GPT-4o의 학제간 지식 보유량도 놀랍습니다. 대규모 언어 모델의 원래 지식 기반을 통합한 GPT-4o는 천문학과 지리를 아는 화가에 해당합니다. 고급 수학 및 물리 문제를 해결할 수 있을 뿐만 아니라, 건축 스케치를 복원할 수도 있습니다. 이와 대조적으로 수직적 응용 프로그램인 Midjourney는 항상 예술 분야에 국한되어 영화 홍보 및 광고와 같은 엔터테인먼트 산업에 서비스를 제공해 왔습니다.

GPT-4o는 얼마나 강력한가요? 질문이 주어지면, 그림 안내를 통한 사진 촬영 및 질문 검색 애플리케이션과 동일한 함수 그래프를 생성할 수 있습니다. 색상이 없는 연필로 된 건축 스케치만 있어도 건축 후의 실제 집 모습을 완벽하게 구현할 수 있어, 분야의 경계를 완전히 초월합니다. 인문학과 자연과학을 모두 아우르는 올라운드 플레이어입니다.

이미지 출처: Xiaohongshu@Yun'an

GPT-4o의 RAW 이미지 수정 기능이 너무나 놀라운 만큼, 이 기능이 인기를 끌게 된 배경은 일반 사람들에게 어떤 실질적인 가치를 제공할 수 있을까?

02 예술을 넘어 GPT-4o는 더욱 실용적인 활용이 가능합니다.

Midjourney가 출시된 지 일주일도 채 되지 않아, CEO인 데이비드 홀츠는 더 이상 가만히 앉아 있을 수 없어 다음과 같은 메시지를 게시했습니다. GPT-4o는 단지 꽃꽂이일 뿐이고, Midjourney-v7은 다음 주에 출시될 예정입니다.

GPT-4o와 Midjourney 중 어느 것이 더 나은지 말하기는 아직 어렵습니다. 하지만 확실한 것은 GPT-4o가 인기를 얻었다는 것입니다. 이 제품은 디자이너의 틈새 시장을 벗어나 대부분의 사람들의 직장 생활에 들어왔습니다. AI 원시 사진이 무엇인지 전혀 모르더라도 입으로 사진을 편집할 수 있는 온라인 도구가 소셜 미디어에 갑자기 등장했다는 사실은 알고 있을 것입니다.

그렇다면 GPT-4o가 이렇게 인기가 많은 이유는 무엇이며, 이것이 우리에게 가져다주는 가장 실용적인 가치는 무엇일까요?

우선, 실제로 적용에 대한 임계값이 없습니다. 사용자에게는 예술적 기술이나 AI 기반이 전혀 필요하지 않습니다. 기본 지식이 없는 일반인도 바로 시작할 수 있습니다. Midjourney를 사용하려면 장르, 색상, 광학, 프레임 등과 같은 기본적인 회화 지식과 /imagine(이미지 생성) 및 --ar(이미지 종횡비)과 같은 기본적인 영어 프롬프트를 알아야 합니다. 하지만 GPT-4o를 사용하면 관점, 프레임, 조명 또는 구조화된 프롬프트가 무엇인지 이해할 필요가 없습니다. 전문적인 지식은 전혀 필요하지 않습니다. 친구와 대화하듯이 사진을 편집할 수 있습니다.

이미지 출처: Xiaohongshu@Geek4Fun

사용 기준을 낮추는 것 외에도, 모델 제품의 품질과 효과도 크게 향상되었습니다. 첫째, 이미지 생성이 더 빠릅니다. 이전에는 Midjourney를 사용해 복잡한 명령어를 구문 분석하는 데 약 1분이 걸렸지만, GPT-4o는 20초 안에 복원할 수 있습니다.

두 번째로, 원시 이미지와 수정된 이미지의 제어성이 개선되었으며, GPT-4o는 사용자가 입력한 명령을 완벽하게 복원할 수 있습니다. 예를 들어, "잔디밭에서 노는 고양이와 개 장면 생성"이라는 동일한 명령에 대해 GPT-4o는 갑자기 나타나는 다른 요소 없이 잔디밭에서 노는 고양이와 개를 생성합니다. 하지만 Midjourney는 잔디밭에 공원이나 건물을 추가할 수 있으며 명령을 완벽하게 따르지 않습니다. 일반인의 관점에서 보면 GPT-4o가 당신에게 더 순종적입니다. 그것은 마치 전자 하인과 같습니다. 당신이 시키는 대로 무엇이든 합니다. 불필요한 일은 하지 않고, 해야 할 모든 일을 더 정확하게 수행합니다.

결과적으로 GPT-4o는 모든 사람에게 길을 열어주고 우리의 작업 시나리오에 참여하게 되었습니다. 이전에는 일반 사용자가 미드저니를 단순히 흥미를 위해 사용했고, 엔터테인먼트적인 속성은 강하고 도구적인 속성은 약했습니다. 유화나 애니메이션 등 다양한 스타일로 생성된 이미지는 보기에는 좋지만, 업무 효율성을 높여주지는 못하고 수익을 창출하지도 못합니다. 그들은 주로 외모에 있어서 역할을 합니다.

GPT-4o는 입으로 이미지를 편집할 수 있는 기능을 통해 AI 드로잉을 적용할 수 있는 산업의 범위를 엔터테인먼트와 예술에서 전문화와 생산성으로 확장했으며, 전자상거래, 교육, 건축, 디자인 및 기타 산업에도 적용할 수 있습니다. 예를 들어, 자녀가 숙제를 하는 방법을 모른다면, 예전에는 선생님에게 도움을 요청하거나 숙제 도우미를 다운로드해야 했습니다. 튜터링 비용은 비싼 편이었고, 숙제 도우미에 나와 있는 설명은 이해하기 어려운 딱딱한 문단으로만 이루어져 있었습니다. 하지만 GPT-4o는 함수가 어떻게 생성되고, 어떻게 답을 얻는지 설명하는 초안 다이어그램을 완벽하게 생성할 수 있습니다. 파생 과정은 부드럽고 자연스럽습니다.

또 다른 예로는 전자상거래 산업을 위한 홍보 포스터가 있습니다. A사는 유럽과 미국 시장을 대상으로 영어 포스터를 제작해 달라고 요청하는데, 이때 디자인 요소와 언어 모두 현지화하고 다듬어야 합니다. 이전 프로세스는 디자이너와 협력하여 요소를 수정하고, 변환 소프트웨어를 사용하여 다듬은 다음, 이를 수정하기 위해 PS 소프트웨어로 가져오는 것이었는데, 이는 시간이 많이 걸리고 힘든 작업이었습니다. 하지만 이제 GPT-4o는 "이 포스터를 유럽 및 미국 스타일로 변경하고 언어를 영어로 변경하세요"라는 한 문장만 있으면 요구 사항을 충족하는 포스터를 빠르게 디자인할 수 있습니다. 여러 분야와 학문을 넘나드는 통합 능력이 매우 강력합니다.

03 단순한 드로잉 그 이상, 대형 모델을 위한 다음 단계는 통합 플랫폼입니다.

GPT-4o의 인기 있는 그림에 대해 이야기한 후, GPT-4o의 하위 모델로서 무엇을 더 탐색할 수 있는지 이야기해 보겠습니다.

Midjourney가 모델 기반의 애플리케이션 아키텍처라는 사실은 우리 모두 알고 있지만, GPT-4o 자체는 모델이고, 원시 이미지는 그 기능 중 하나입니다. 2022년에 처음 출시된 ChatGPT는 텍스트 소통이 가능한 대화형 비서일 뿐입니다. 나중에는 음성통화가 가능해졌고, 이제는 그림을 그릴 수도 있습니다. 다양한 차원에서 지속적으로 반복되고 업그레이드되어 왔습니다.

GPT-4o가 매핑 경쟁에서 두각을 나타낼 수 있었던 것은 실제로 고유한 멀티모달 모델 기능의 등장 덕분입니다. Midjourney와는 달리 GPT-4o는 더 많은 기술적인 경로를 가지고 있습니다. 문화 그래픽 분야에서 일반적으로 사용되는 기본 모델은 확산 모델이라고 합니다. 원리는 먼저 대략적인 이미지를 생성한 다음 노이즈를 제거하는 것입니다. 그것은 눈 속에 그림을 그리는 것과 같거나 안개 속에서 꽃을 보는 것과 같으며, 회복 능력이 강하지 않습니다. GPT-4o는 Wenshengtu 자기회귀 모델을 계속 사용하는데, 이는 이전 토큰 예측의 논리적 추론 능력을 Wenshengtu 필드로 더욱 확장한 것과 같습니다. 프레임별로 그림을 그리면서 생성된 픽셀로부터 다음 픽셀을 추론하는데, 이는 본질적으로 사람이 그림을 그리는 것을 모방하는 것입니다. 즉, 수직적 애플리케이션과 달리 대규모 모델은 기본 아키텍처와 다른 기술적 경로를 선택할 수 있으며, 아키텍처 업그레이드는 일반적으로 성능 향상을 가져오고 GPT-4o와 같은 기본 모델을 기반으로 하는 기능은 성장 여지가 더 많습니다.

두 번째는 멀티모달 융합이 도메인 간 통합을 가져올 것이라는 점입니다. 일반적인 대형 모델인 GPT-4o는 텍스트, 오디오, 이미지 등 다양한 형식의 정보를 통합할 수 있는 기능을 갖추고 있습니다. 이 단계에서는 이미 전화 통화를 할 수 있고, 원시 이미지를 수정할 수도 있습니다. 앞으로는 음악과 영상을 직접 제작할 수 있을지도 기대해 볼 만합니다. 실제로 이번에 GPT-4o가 출시한 원시 이미지 기능은 OpenAI의 원시 이미지 모델인 DALL-E에서 파생된 것입니다. 아마도 OpenAI의 빈센트 반 고흐 비디오 모델인 소라(Sora)도 어떤 기술을 통해 GPT 모델에 통합될 수도 있을 것입니다. 그때쯤이면 여러 모달리티의 정보를 하나의 모델로 교차 처리하는 것도 멀지 않을 것입니다.

다중 모드 혁신은 모델이 더욱 다기능화됨에 따라 다양한 작업을 처리하는 능력이 점점 더 강력해지고, 이로 인해 AI를 사용하는 데 드는 전반적인 비용이 감소한다는 것을 보여줍니다. 예측 가능한 추세는 대규모 모델이 코드, 디자인, 음악, 데이터 처리 등 여러 작업을 통합하는 원스톱 패키징 사이트가 되려고 한다는 것입니다. 어쩌면 언젠가는 ChatGPT와 비슷한 모델이 모든 분야에서 상위 3위 안에 들 만큼 강력해질지도 모릅니다. 더 이상 그림을 그리기 위한 Midjourney, 코드를 쓰기 위한 coze, 음악을 만들기 위한 suno와 같은 수직적 애플리케이션을 다운로드할 필요가 없습니다. ChatGPT와 유사한 모델을 직접 다운로드하여 모든 문제를 해결할 수 있습니다. 이런 방식으로 휴대폰은 더 많은 메모리를 가지고 더 효율적으로 작동하게 됩니다. 수직형 애플리케이션의 경우 멤버십 맞춤형 비용을 매달 약 100위안 절약할 수 있어 비용 효율성이 더욱 높습니다.

간단히 말해, GPT-4o의 그리기 기능이 등장하면서 기본 대형 모델이 여러 애플리케이션을 통합할 수 있는 능력을 확인할 수 있게 되었습니다. 이 기능을 통해 얻은 비전은 미래에 그림, 음악, 코딩과 같은 다차원적 기능을 원스톱 모델로 동시에 사용할 수 있다는 것입니다. 게다가 사용 임계값이 매우 낮아서 기술적 기초가 없거나 AI에 대한 지식이 전혀 없는 사람도 사용할 수 있습니다.

그리고 이것이 인간이 AI를 발명한 궁극적인 목표일 수도 있습니다. 기술을 모든 곳에서 이용할 수 있게 하는 것입니다.

본 기사는 위챗 공개 계정 "脑极体"(ID: unity007) 에서 발췌하였으며, 저자는 Shanhu이고, 36氪의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트