Midjourney v7 리뷰: 이전 산업 표준이 따라잡기 위해 고군분투하다

avatar
Decrypt
04-08
이 기사는 기계로 번역되었습니다
원문 표시

미드저니 v7의 알파 버전은 한때 지배적이었던 이미지 생성기가 명백히 입지를 잃어가고 있는 시점에 출시되었습니다. 여전히 약 2,000만 명의 대규모 디스코드 기반 사용자를 보유하고 있지만, OpenAI의 GPT-4o, Reve, 그리고 Ideogram 3.0과 같은 새로운 도구들이 사실성, 정밀도, 기능성 면에서 앞서고 있습니다.

이 새로운 모델은 거의 1년 만의 첫 주요 업데이트로, 텍스트 프롬프트 이해도와 이미지 품질 향상을 소개합니다. 또한 더 빠르고 저렴한 이미지 생성을 위한 초안 모드를 선보이며, 사용자가 이미지 쌍을 순위 매겨 개인 프로필을 구축하는 개인화 과정을 완료하도록 요구합니다.

"이는 우리의 가장 스마트하고, 가장 아름답고, 가장 일관성 있는 모델입니다," 미드저니 팀은 X에 썼습니다. "한번 시도해보시고 앞으로 2개월 동안 매주 또는 2주마다 업데이트를 기대하세요."

미드저니는 전통적으로 정확성이나 텍스트 생성보다는 창의성과 미학에 탁월했지만, v7은 이미지 편집을 위한 더 나은 자연어 상호작용과 자동 프롬프트 개선을 통해 이 격차를 좁히려 합니다.

일부 사용자들은 OpenAI의 모델이 이러한 텍스트 처리 개선을 지원할 수 있다고 추측하고 있습니다. 이 모델은 자연어와 음성 명령을 이해하고 실행하며 자동으로 프롬프트를 개선할 수 있는데, 미드저니는 이를 독립적으로 개발한 LLM이 없기 때문입니다. 실제로 질문받았을 때, 모델은 아래 테스트에서 볼 수 있듯이 OpenAI와 GPT에 대한 참조를 생성합니다.

미드저니는 이 연결에 대해 공식적으로 확인하거나 부인하지 않았으며, 이메일 문의에도 답변하지 않았습니다. 만약 이것이 사실로 밝혀진다면, "개선된" 프롬프트가 OpenAI의 정책에 따라 필터링될 것으로 예상됩니다. 또한 API 비용 지불을 위해 일부 컴퓨팅 성능이 할당되므로 더 높은 가격이나 플랜당 생성 수 감소를 의미할 수 있습니다.

미드저니 v7은 더 나은 프롬프트 이해와 더 일관된 이미지 구조 등 일부 환영할 만한 업그레이드를 제공하며, 특히 손과 사물과 같이 역사적으로 까다로웠던 영역에서 개선되었습니다. 하지만 2025년에는 이러한 기능들이 기본 사양일 뿐, 혁신은 아닙니다.

아마도 가장 중요한 추가 기능은 표준 옵션의 10배 속도와 절반 비용으로 이미지를 생성하는 초안 모드일 것입니다. 이 기능은 사용자가 빠르게 브레인스토밍하고 반복할 수 있도록 돕는 것을 목표로 하며, Leonardo의 Flow 모드와 Freepik의 Reimagine 도구와 유사하게 출력 품질은 거칠고 덜 상세합니다.

이전 버전과 달리 v7은 개인화가 기본적으로 켜져 있습니다. 새로운 사용자는 약 200개의 이미지를 평가하여 자신의 미적 취향에 맞는 프로필을 구축해야 합니다. 이는 사용자가 자동으로 자신의 스타일과 요구에 맞게 구성된 미드저니의 맞춤형 버전을 갖게 되며, 사용자가 더 많은 이미지에 순위를 매기면서 시간이 지남에 따라 진화한다는 의미입니다.

새로운 사용자에게는 약간 성가신 과정일 수 있지만, 전체 설정 프로세스는 약 5분 정도 소요되며 품질 향상을 고려하면 투자할 가치가 있습니다. 오랜 사용자들은 수천 개의 이미지 순위로 개인 모델을 훈련시켰으며, 이는 플랫폼의 틈새 매력을 설명하지만 새로운 사용자에게는 큰 부담입니다.

그러나 알파 버전은 리믹스와 같은 여러 V6 기능 및 품질, 중지, 타일, 이상한 매개변수를 지원하지 않습니다. 업스케일링 및 인페인팅과 같은 기능은 현재 V6.1로 돌아가며, 이러한 영역에서 지속적인 개발이 진행 중임을 시사합니다.

미드저니의 출시는 이전 세대와 비교했을 때 한때 놀라움을 주었습니다. V4는 v3에 비해 거대한 도약으로 느껴졌습니다. 하지만 v7에서는 그 마법이 사라지고 있습니다.

이 알파 버전은 진전의 징후를 보여주지만, GPT-4o나 Reve와 같은 경쟁자들의 혁신에는 근접하지 못합니다. 우리의 테스트 결과, V6.1에 비해 약간의 개선만 있었을 뿐, 왕좌를 되찾을 만한 업그레이드는 아닙니다.

(번역은 계속됩니다. 전체 텍스트를 번역하겠습니다.)

새로운 자연어 편집기는 완전히 다릅니다. 기존의 스테이블 디퓨전과 유사한 접근 방식에서 벗어나 OpenAI의 DALL-E 3와 유사한 더 몰입감 있는 경험을 사용자에게 제공합니다.

초안 모드에서 프롬프트를 생성한 후, 사용자는 해당 텍스트 상자에 자연어 프롬프트를 입력할 수 있으며, 모델은 이전 생성 이미지를 편집하도록 요청받고 있음을 이해합니다.

미드저니는 음성-텍스트 기능도 도입했으며, 본질적으로 사용자가 UI와 대화하고 요청을 처리하는 것을 볼 수 있게 합니다. 이는 초보자에게 매우 좋으며, 대부분의 어려움을 제거합니다.

그러나 경쟁사와 비교하면 잘 실행되지 않았습니다. 사용자가 특정 변경을 요구할 때 미드저니는 본질적으로 전체 이미지를 편집하므로, 새로 생성된 이미지는 대상이나 스타일의 일관성을 잃는 경향이 있습니다.

반면에 ChatGPT와 Reve와 같은 모델은 이 기능을 훨씬 더 잘 구현하며 편집 중인 원본 이미지의 핵심 특징을 유지할 수 있습니다.

예를 들어, ChatGPT가 정확히 같은 반복 작업을 처리하는 방식은 다음과 같습니다: 자전거를 타는 개 위에 고양이를 생성한 후, 고양이에게 빨간 모자를 착용하도록 요청받습니다.

이 새로운 버전은 월 10달러부터 시작하는 구독을 기꺼이 지불할 미드저니 팬들을 유지할 수 있는 환영할 만한 업그레이드입니다. 그러나 월 20달러로 ChatGPT는 더 나은 프롬프트 준수, 공간 인식, 추가 기능 및 다른 모든 모델에 대한 접근을 제공합니다. Reve(월 10달러부터 시작)도 스타일과 사실성 면에서 더 우수합니다.

이것이 알파 릴리스라는 점을 명심하세요. 즉, 결과가 최종 제품과 반드시 유사하지는 않을 것입니다. 사용자는 모델을 개인화할 수 있는 옵션도 있으며, 이는 매력적일 수 있고 다른 모델에서는 제공하지 않는 기능입니다.

테스트 카테고리에 걸친 혼합된 결과는 이것이 이미지 생성의 새로운 물결에서 보는 혁명이 아니라 모델의 진화임을 보여줍니다. 미드저니에 얽매이지 않는다면, 이 알파 모델은 확실히 당신을 놀라게 하지 않을 것입니다.

이미지 편집 기능은 좋은 추가 기능이지만 양날의 검이 될 수 있습니다. 사용자가 멋진 것들을 생성할 만큼 창의적일 수 있지만, 일관성 부족으로 인해 특정 사진을 편집할 때 신뢰할 수 없습니다. 그를 위해서는 기존의 더 복잡한 편집기가 유일한 합리적인 옵션입니다.

전반적으로 미드저니를 정말 좋아한다면, 이 업그레이드는 새로 도입된 기능으로 더 나은 그리고 신선한 경험을 즐기며 머물 수 있는 이유를 제공할 것입니다. 하지만 디스코드의 혼란과 고통을 즐기거나 그 창의적 자유를 좋아하지 않는다면, 지금 미드저니를 시도할 만한 이유는 거의 없습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트