벤치마크에서는 최고 성능을 보였지만 실제 테스트에서는 기대 이하의 성능을 보여준 GPT Image 1.5는 심한 비판을 받고 있으며, 울트라맨의 미래는 암울해 보입니다.

이 기사는 기계로 번역되었습니다
원문 표시

오픈AI는 심야에 비장의 카드인 새로운 GPT 이미지 1.5를 공개했습니다. 이 제품은 두 개의 차트에서 1위를 차지하며 구글 나노 바나나 프로를 압도적으로 제쳤습니다. 그러나 온라인 테스트 결과, 비판적인 반응이 쏟아졌습니다.

구글이 제미니 3.0 플래시를 출시하려던 바로 그 순간, 오픈AI는 깜짝 발표로 맞섰습니다.

방금 전, OpenAI는 "크리스마스 깜짝 선물"로 새로운 플래그십 이미지 모델인 ChatGPT Images를 공식 공개했습니다.

이번에 OpenAI는 원본 이미지 처리 기능을 최대한 활용했습니다.

정밀 제어 : 명령을 이해하는 능력이 크게 향상되어 진정한 의미의 "정확한 조준 및 변경"이 가능해졌습니다.

디테일에 집착함 : 이미지의 세부 사항이 완벽하게 보존되어 있으며 질감이 매우 뛰어납니다.

급속 생성 : 이전 세대 대비 속도가 무려 4배 향상되었습니다.

또한 오늘부터 모든 무료 ChatGPT 사용자는 서비스를 시작할 수 있으며, 개발자는 GPT Image 1.5 API를 직접 호출할 수도 있습니다.

LMARaena 경기장에서는 무적처럼 보였다.

Wenshengtu는 1264 Elo 포인트로 Google Nano Banana Pro(NBP)를 제치고 1위를 차지했습니다.

이미지 편집 부문 에서는 chatgpt-image-latest가 NBP를 단 3점 차이로 간신히 제치고 우승을 차지했으며, GPT Image 1.5가 그 뒤를 이어 4위에 올랐습니다.

인공지능 분석 분야에서는 두 부문에서 1위를 차지하기도 했습니다.

하지만 상황이 너무 빨리 역전되었다.

네티즌들의 테스트 결과, 이는 "높은 점수지만 실제 능력은 낮은" 전형적인 사례인 것으로 나타났습니다.

유천진의 비교에 따르면, GPT의 순수 이미지 처리 능력은 구글 NBP와 거의 동등하지만, 지능적인 측면에서는 완전히 뒤쳐진다.

특히 손으로 쓴 메모를 다룰 때 GPT Image 1.5는 괜찮아 보이지만 완전히 잘못된 결과입니다.

왼쪽: ChatGPT 이미지; 오른쪽: 나노 바나나 프로

왼쪽: ChatGPT 이미지; 오른쪽: 나노 바나나 프로

이러한 차이는 지역 사회 내에서 격렬한 항의를 불러일으켰습니다.

어떤 이들은 "구글 나노 바나나 프로가 여전히 최고다"라고 단언하기도 했습니다.

일각에서는 "이번 발표는 오픈AI의 또 다른 당황스럽고 무의미한 결과물이 될 수 있다"며 비판하기도 했습니다.

먼저 GPT-5.2는 온라인에서 광범위한 부정적인 평가를 받았고, 그 후 GPT Image 1.5는 실제 테스트에서 구글의 "바나나" 검색 성능을 이기지 못했습니다.

OpenAI는 연말에 구글과의 치열한 경쟁에서 완전히 패배한 것으로 보입니다...

GPT Image 1.5가 출시되었습니다. 획기적인 진화입니다.

본론으로 돌아가죠.

공식 블로그에 따르면 ChatGPT는 이전보다 이미지 편집 요구 사항을 훨씬 더 잘 충족하게 되었습니다.

사소한 디테일이라도 필요한 부분만 변경하고, 조명, 구도, 캐릭터 외형과 같은 요소는 입력, 출력 및 후속 편집 과정에서 일관성을 유지해야 합니다.

오픈AI 연구원 보위안 첸이 공개한 단 한 장의 이미지가 '헤이즐넛'이라는 코드명을 가진 GPT 이미지가 공개되었음을 확인시켜 줍니다.

이렇게 하면 우리가 진정으로 의도한 바를 충족하는 결과를 얻을 수 있습니다.

사진 편집, 옷과 헤어스타일 시뮬레이션, 원본 이미지의 본질을 유지하면서 스타일 필터를 적용하거나 콘셉트를 변형하는 등, ChatGPT는 모든 것을 처리할 수 있습니다.

이번 업데이트를 통해 ChatGPT는 휴대용 창작 스튜디오로 거듭났습니다. 이곳에서 여러분은 성실하게 작업하고 창의력을 마음껏 발휘할 수 있습니다.

크리스마스를 맞아 울트라맨이 찾아옵니다...

세밀한 편집, 여러 차례의 사진 편집 과정을 거쳤습니다.

GPT Image 1.5는 추가, 삭제, 결합, 병합 및 교체를 포함한 다양한 "작업"에서 탁월한 성능을 발휘합니다.

따라서 본래의 "느낌"을 잃지 않고 이미지를 바꿀 수 있습니다.

단 두 사람과 그들의 개만 있는 상황에서, GPT Image 1.5는 생일 파티에서 억지로 "일"을 해야 하는 그들이 느꼈던 지루함을 정확하게 포착했습니다.

과제: 2000년대 영화 스타일의 사진을 찍고, 이 두 남자와 강아지를 합성하여 아이 생일 파티에서 지루해하는 표정을 담아내세요.

그런 다음, 이 이미지를 기반으로 ChatGPT를 일련의 방식으로 "편집"할 수 있습니다. 예를 들어 배경에 장난꾸러기 아이들을 잔뜩 추가하는 식입니다.

지시사항: 배경에 물건을 던지고 소리 지르며 주변을 어지럽히는 버릇없는 아이들을 잔뜩 추가하세요.

다음으로, AI는 왼쪽에 있는 남성을 애니메이션 캐릭터 얼굴로, 강아지를 봉제 인형으로 정확하게 합성했습니다.

지시사항: 왼쪽에 있는 남자는 손으로 그린 ​​복고풍 일본 애니메이션 스타일로, 강아지는 봉제 인형으로 바꾸고, 오른쪽에 있는 남자와 배경은 그대로 두세요.

그다음에는 그들 모두에게 OpenAI에서 맞춤 제작한 슈트를 입히고 조종해 보세요. (추신: 마크 첸의 목 처리 방식이 좀 이상해 보이네요.)

프롬프트: 이 모든 캐릭터에게 OpenAI 스웨터를 입히면 이렇게 보일 겁니다.

더욱 놀라운 것은 ChatGPT가 단 한 번의 클릭으로 배경을 바꿀 수 있어 생일 파티를 순식간에 OpenAI 라이브 스트림으로 탈바꿈시킬 수 있다는 점입니다.

지시사항: 이제 두 남자를 제거하고 개만 남겨둔 다음, 첨부된 이미지와 유사하게 OpenAI 라이브 스트림에 삽입하세요.

스케이트보드를 또 다른 예로 들어, ChatGPT가 1990년대 후반 다큐멘터리 거리 사진 스타일로 로스앤젤레스의 스케이트보드 장면을 생성하도록 해봅시다.

요청 사항: 로스앤젤레스 풍경 속 스케이트보드 사진, 다음 스타일로 촬영해 주세요: 90년대 후반 다큐멘터리 거리 사진, 35mm 컬러 필름 사용, 라이카 M 스타일 레인지파인더 카메라와 35mm 렌즈, 코닥 포트라 400 컬러 패널 필름, 자연광, 부드러운 콘트라스트, 은은하고 사실적인 색감, 필름 그레인, 가장자리 부분 약간 부드럽게 처리, 자연스러운 관찰 구도, HDR 및 최신 디지털 샤프닝, 영화적 조명 사용 안 함.

이 사진을 참고하여 스케이트보더의 옷 색깔을 즉시 "빨간색"으로 바꿨습니다.

지시사항: 스케이트보드를 타는 사람의 옷은 빨간색으로, 모자는 노란색으로 바꾸세요. 속도 제한 표지판에는 15라고 표시하고, 트럭은 소방차로 바꾸세요.

생동감이 부족하다고요? 왼쪽에서 사람들이 한 무리 나타나고, 오른쪽에서 독수리가 날아오르고, 하늘에는 비행선이 떠올랐습니다. 원하는 건 뭐든지 가질 수 있었죠.

지시사항: 왼쪽에는 구경꾼들이 모여 있고, 오른쪽에는 도로 위에 독수리가 앉아 있으며, 멀리에는 비행선이 머리 위로 날아가고 있습니다.

다음으로, ChatGPT를 사용하여 이 이미지를 티셔츠에 직접 인쇄합니다.

과제: 빨랫줄에 걸어 말릴 수 있는 티셔츠를 구해서 방금 언급한 이미지를 티셔츠 전체에 인쇄하세요. (표면 전체를 덮는 인쇄 방식입니다.)

마지막으로 ChatGPT는 스케이트보더에게 이 티셔츠를 입힐 수도 있습니다.

지시사항: 빨랫줄에 걸려 있던 티셔츠를 저 스케이트보더에게 주시겠어요?

위의 두 데모를 통해 ChatGPT가 GPT Image 1.5 지원을 통해 이미지를 정밀하게 편집할 수 있는 능력을 쉽게 확인할 수 있습니다.

이 기능을 사용하면 가리키는 위치에서 정확하게 변경할 수 있으며, 여러 번의 편집 후에도 일관성을 유지합니다.

탁월한 창의력, 세밀한 부분까지 완벽하게 숙달됨

편집은 기본이지만, GPT Image 1.5의 창의성은 특히 "대대적인 변형" 과정에서 빛을 발합니다.

텍스트와 타이포그래피 같은 요소를 변경하고 추가하면서 중요한 세부 사항은 유지함으로써 아이디어를 현실로 구현할 수 있습니다.

이러한 변환 기능은 단순한 개념부터 복잡한 아이디어까지 모두에 적용할 수 있습니다. 또한 새로운 ChatGPT 이미지 기능을 사용하면 별도의 안내 없이 미리 설정된 스타일과 아이디어를 활용하여 바로 시작할 수 있습니다.

예를 들어, 두 사람이 함께 찍은 사진을 업로드하여 ChatGPT 영화 포스터 스타일의 이미지를 만들 수 있습니다.

과제: 다음 두 사진을 사용하여 고전 할리우드 황금기 스타일의 영화 포스터 *코덱스*를 제작하세요. 시대적 배경에 맞는다면 의상은 자유롭게 변경하셔도 됩니다. 배우 이름은 보이치에흐 자렘바(왼쪽)와 그렉 브록먼(오른쪽)으로 변경하세요. 감독은 샘 알트만, 제작은 피지 시모입니다. 제작사는 "A Feel the AGI Pictures Production"으로 표기하세요.

보시다시피, 생성된 크리에이티브 이미지는 즉시 강렬한 분위기를 자아냅니다. 또한, 지침에 있는 텍스트의 세부 사항까지 이미지에 완벽하게 재현되었습니다.

그럼 울트라맨을 80년대 스타일의 피트니스 강사로 만들어 보세요. 풍성한 머리카락에 머리띠, 손목 밴드까지 착용한 모습으로요.

요청 사항: 제 얼굴 윤곽과 표정은 그대로 유지하면서, 80년대 VHS 비디오테이프 스타일의 피트니스 강사로 변신시켜 주세요. 80년대 사진 및 비디오 특유의 효과를 얼굴에 직접 적용해 주세요. 은은한 광택, 약간의 흐림 효과, 미세한 노이즈, 미묘한 색 번짐, 그리고 피부 톤과 가장자리 디테일에 영향을 주는 희미한 스캔 라인 등을 표현해 주세요. 스타일링은 80년대 스타일의 화려한 운동복으로, 테리 소재의 헤어밴드, 손목 밴드, 네온 컬러의 운동복을 착용해 주세요. 헤어스타일은 자연스러운 길이와 질감을 살려 80년대 스타일의 풍성한 볼륨감을 살려 연출해 주세요. 전체적인 분위기에 어울린다면 밝고 복고풍의 메이크업을 추가해도 좋습니다. 부드러운 파스텔 톤의 스튜디오 조명과 약간 흐릿한 VHS 영상 효과를 사용하여 얼굴과 몸 모두 아날로그 신호 같은 분위기를 연출해 주세요. 영상은 제가 에어로빅 운동을 지도하는 모습을 담아 주세요. 화면에 관련 텍스트를 추가해 주세요.

ChatGPT는 1980년대의 정수를 제대로 포착했다고 할 수 있습니다.

ChatGPT는 단 한 번의 클릭으로 "글래머 인형" 스타일의 데이터까지 생성할 수 있습니다.

지시사항: 주인공을 도도하면서도 매력적이고, 무심한 듯한 분위기로 표현하는, 스타일리시한 3D 공중 부양 헤드를 제작하세요. 반쯤 감은 눈, 치켜 올라간 눈썹, 살짝 올라간 입꼬리는 전형적인 "도도한 아가씨"의 분위기를 자아냅니다. 피부는 매끄럽고 윤기 있는 젤 같은 질감으로 표현하고, 광대뼈와 코에는 강한 하이라이트를 넣어 부드러운 스튜디오 조명을 담아내세요. 아이섀도는 홀로그램처럼 보라색에서 파란색으로 자연스럽게 그라데이션되는 효과를 내고, 반짝이는 점들을 표현하세요. 머리카락은 풍성하고 부드러우며 윤기 있고, 조각 같은 웨이브나 매끈한 업스타일로 연출하여 광택 있는 아크릴처럼 빛을 반사하도록 하세요. 은은한 금속 광택이 나는 작은 크롬 코 피어싱(스터드 또는 링)을 추가하세요. 헤드는 고급 제품 광고처럼 순백색의 무채색 배경 위에 15도 각도로 기울어진 채 떠 있어야 합니다. 밝고 은은한 스튜디오 조명을 사용하여 강한 그림자를 피하고, 광택과 플라스틱 같은 질감, 그리고 표면 아래 산란 효과를 강조하여 사실적인 깊이감을 표현합니다. 정서 도도하고 세련되면서도 무심한 듯 시크해야 합니다. 카메라 위치는 렌즈를 정면으로 바라보는 클로즈업 인물 사진으로, 초점 거리는 85mm로 설정합니다. 피부, 입술, 머리카락은 매우 매끄럽고 광택이 나는 만화풍의 플라스틱 질감을 사용해야 합니다.

울트라맨은 순식간에 "날카롭고 당돌한 소녀"로 변신했다!

더욱 흥미로운 점은, 그 캐릭터(울트라맨)를 유용한 부적으로도 만들 수 있다는 것입니다.

요청 사항: 광택 있는 몰드 유리로 조각된 펜던트로 저를 변신시켜 주세요. 모든 각도에서 빛을 반사하는 고광택 래커 마감으로 마감해야 합니다. 만졌을 때 놀랍도록 부드럽고 시원한 촉감을 선사하며, 무게감은 섬세함과 영원함을 동시에 표현해야 합니다. 코팅은 세라믹과 사탕 아이싱의 중간쯤 되는 광택 있는 에나멜 질감을 가져야 하며, 빛을 매우 반사하여 곡면 위에서 작은 하이라이트가 부드러운 불꽃처럼 피어나도록 해야 합니다. 섬세한 금속 장식을 사용하여 윤곽과 질감을 강조하세요. 점, 선, 금색과 은색의 세공 패턴은 움직일 때 반짝임을 더합니다. 이러한 장식은 미세한 글리터나 마이크로비즈를 사용하여 수공예 느낌을 살려야 하며, 반짝임은 평면적인 것이 아니라 겹겹이 쌓여 빛이 입체적인 디테일 위에서 춤추는 것처럼 보이도록 해야 합니다. 전체적으로 빈티지하면서도 키치한 고급스러움을 풍겨야 합니다. 생동감 넘치는 색상 블록과 반짝이는 악센트가 어우러져 장난스러우면서도 의도적인 아름다움을 표현해야 합니다. 빛을 받는 곡면 부분에는 금색, 로즈골드, 진주색이 은은하게 감도는 무지갯빛 광택을 더해야 합니다. 표면 질감은 마치 윤기 나는 사탕이나 틀에 부은 녹인 사탕처럼 먹음직스러워야 합니다. 섬세한 금색 고리와 가는 끈에 매달린 이 장식품은 축제 분위기와 조각미를 동시에 담아 은은한 아름다움을 자아내야 합니다. 크리스마스트리 조명이나 스튜디오 조명 아래에서 반짝이는, 상징적이면서도 유머러스한 포인트 아이템이 되어 캠프적인 우아함과 수공예적인 향수를 불러일으켜야 합니다.

산타클로스 디자인이에요.

울트라맨이 애플 WWDC 연설에서 입었던 상징적인 분홍색 의상을 꺼내서 지금 그의 모습이 어떤지 살펴볼까요?

지시사항: 업로드된 이미지를 주요 참고 자료로 사용하여 90년대 미국 패션 광고 스타일의 미니멀리즘 이미지로 변환하세요. 피사체의 얼굴 특징, 비율, 포즈, 표정은 완벽하게 보존해야 합니다. 더블 칼라 폴로 셔츠의 색상도 원래 색상 그대로 유지하세요. 스타일: 깔끔하고 절제된 고급 패션 잡지 스타일. 의상: 더블 레이어드 폴로 셔츠(폴로 셔츠 위에 다른 셔츠를 겹쳐 입는 스타일), 클래식한 컷, 뉴트럴 또는 은은한 색상. 배경: 이음새 없는 스튜디오 배경, 심플한 구도. 조명: 부드럽고 균일한 스튜디오 조명과 은은한 그림자, 자연스러운 피부톤. 정서: 자신감 넘치고 편안하며 시대를 초월하는 느낌. 브랜드: GPT-Shirt. 사진 스타일: 중형 필름 느낌, 은은한 입자감, 절제된 콘트라스트.

아우라에 관해서는, 그건 전적으로 사람마다 다릅니다.

소녀들 사이에서 가장 인기 있는 "바비 인형 옷 입히기" 게임들을 이제 ChatGPT에서 즐길 수 있습니다.

지시사항: 그를 2000년대 스타일의 옷 입히기 게임 인터페이스에 배치하고, 전체 환경을 분홍색으로 꾸며주세요. 선글라스도 의상에 포함되어 있어야 합니다.

울트라맨의 의상은 그의 캐릭터와 완벽하게 어울립니다. 심지어 그가 요청했던 선글라스까지 사진에 담겨 있습니다.

ChatGPT는 울트라맨을 고전 애니메이션인 "진주 귀걸이를 한 소녀"로 바꿔볼 수도 있습니다.

지시사항: 저를 "진주 귀걸이를 한 소녀" 그림 속에 넣어주세요.

그는 음료 광고 모델로도 활동할 수 있다.

과제: 첨부된 남성의 얼굴을 사용하여 "SOTA"(새로운 종류의 탄산음료)라는 신제품 음료의 복고풍 광고를 제작하세요. 슬로건은 "인공적인 첨가물 없음"이어야 합니다. 광고 스타일은 해당 시대의 분위기를 충실하게 재현해야 합니다.

한 차례 시연 후, ChatGPT Image는 더욱 상상력 넘치는 창의성을 보여주었습니다. GPT-4o의 기존 지브리 스타일 디자인과 비교했을 때, 새로운 이미지 모델은 훨씬 더 혁신적입니다.

사람의 명령에 더욱 민감하게 반응하며, 6x6 격자를 완벽하게 재현합니다.

GPT Image 초기 버전과 비교했을 때, 버전 1.5는 명령을 따르는 능력이 더욱 향상되었습니다.

이를 통해 더욱 정밀한 편집과 더욱 복잡한 독창적인 구성이 가능해지며, 요소 간의 관계는 예상대로 유지됩니다.

자, 이제 지옥 같은 난이도로 바로 넘어가 보겠습니다. 6x6 격자에 36개의 요소가 있고, GPT Image 1.5를 사용하여 완벽한 부드러움과 정확도를 구현해야 하며, 요소 하나도 누락되어서는 안 됩니다.

즉각적인:

다음 내용을 사용하여 6열 6행 격자 차트를 만드세요.

  • 1행: 그리스 문자 β, 비치볼, 레몬, 로봇, 어항, 개구리
  • 2번째 줄: 사마귀, 고급 시계, 욕조, 선글라스, 화려한 나비, 봉투
  • 3번째 줄: 우표, 액자, 김이 모락모락 나는 만두, "기적"이라는 단어, 스키, 알파벳 Z
  • 4번째 줄: 화장실, 지하철 토큰, 음소거 아이콘, 향수, 잠자리, 스케이트보드 헬멧
  • 5번째 줄: 블루투스 아이콘, 숫자 13, 녹색 하트, 루빅 큐브, 캐나다 구스, 군인 헬멧
  • 6번째 줄: 흰 개, 구명조끼, 매듭, 키보드, 티슈 상자, 숫자 14

왼쪽: 신형 모델; 오른쪽: 구형 모델

선명한 텍스트 렌더링, 직접 출력 프로그래밍

새로운 모델은 텍스트 렌더링에서 한 단계 더 발전하여, 더 작은 글꼴 크기로도 더 빽빽한 텍스트를 처리할 수 있습니다.

다음 이미지는 GPT-5.2 및 ChatGPT의 무시무시한 마크다운 렌더링 기능을 보여줍니다.

즉각적인:

아래 칼로리 관련 인포그래픽은 매우 상세합니다.

즉각적인:

ChatGPT는 복잡한 프로그래밍 인터페이스까지 컴파일할 수 있습니다.

즉각적인:

추가 개선 사항

새로운 모델은 다른 측면에서도 개선되어 출력 결과가 더욱 직관적이고 사용하기 편리해졌습니다.

예를 들어, 다양한 얼굴을 자연스럽게 잘 그려낼 수 있습니다.

ChatGPT Image는 1970년대 런던의 모습을 담은 이미지를 생성합니다. 새로운 버전(왼쪽)과 이전 버전(오른쪽)의 차이가 확연히 드러납니다.

버전 1.5는 얼굴 특징 면에서 더욱 세밀하고 사실적입니다.

과제: 1970년대 런던 첼시의 거리 풍경을 사진처럼 사실적이고, 초점이 정확하며, 매우 세밀한 이미지로 표현해 보세요. 거리는 사람들로 가득 차 있어야 하고, "ImageGen 1.5" 광고와 OpenAI 로고, 그리고 "상상하는 것을 창조하세요"라는 부제가 적힌 버스가 있어야 합니다. 전체적인 스타일은 마치 아이폰으로 찍은 스냅샷처럼 극도로 사실적인 아마추어 사진이어야 합니다.

예를 들어, 거대한 군중이 있는 "웅장한 장면"을 보면, 새로운 버전(왼쪽 아래)은 더 사실적이고 자연스러운 반면, 이전 버전(오른쪽 아래)은 언뜻 보기에 시대에 뒤떨어져 보입니다.

프롬프트: 골든 게이트 브리지에 수만 명의 인파가 모인 거대한 장면. 군중 속 모든 사람의 얼굴이 선명하게 보인다.

잠수부가 물속에서 피아노를 연주합니다. 새롭게 제작된 (왼쪽) 사실적인 버전은 훨씬 더 인간적인 느낌을 줍니다.

프롬프트: 잠수부가 물속에서 피아노를 연주하고, 인어들이 그 모습을 지켜보고 있습니다. 극도로 사실적인 아마추어 사진 스타일로 표현해주세요.

빛 반사가 있는 사진을 생성해 보세요. 아래 비교에서 오른쪽 사진의 효과가 얼마나 부자연스러운지 바로 확인할 수 있습니다.

지시사항: 인쇄된 빈티지 사진을 포함하는 이미지를 만드세요. 사진에는 산타 모자를 쓴 젊은 아시아 남성과 젊은 백인 남성이 술집에 앉아 있고, 한 명은 음료를 들고 있는 모습이 담겨 있어야 합니다. 인쇄된 사진에는 카메라 플래시의 반사광이 보여야 하며, 얇은 흰색 테두리가 있고 약간 기울어져 있어야 합니다.

새로운 경지에 도달하기 위해

성능을 평가하기 위해 OpenAI는 ChatGPTImage 1.0 릴리스의 여러 예제를 다시 실행했습니다.

새로운 모델은 여러 면에서 상당한 개선을 보여주었지만, 결과가 아직 완벽하지는 않습니다. 이번 버전은 의미 있는 진전을 나타내지만, 향후 개선을 위한 여지가 여전히 많이 남아 있습니다.

예를 들어, 새로운 버전(왼쪽)은 일본 애니메이션 스타일로 다양한 수심의 해양 생물 단면도를 보여주지만, 그 스타일은 이전 버전(오른쪽)만큼 "일본 애니메이션 스타일"에 충실하지는 않습니다.

과제: 다양한 수심대의 심해 생물을 보여주는 심해 포스터를 제작하세요. 바다의 단면을 세로로 표현하고, 섬세하고 아름다운 일본 애니메이션 스타일을 활용하세요.

새로운 버전(왼쪽)은 이전 버전(오른쪽)에 비해 어두운 판타지 애니메이션 스타일을 명확히 오해하고 있음을 보여줍니다.

과제: 어두운 판타지 애니메이션 스타일로 제 초상화를 그려주세요.

OpenAI는 특정 예술 스타일을 생성하는 능력이 이전 버전에 비해 퇴보했음을 인정했습니다.

해결 방법은 "이미지" 기능의 사전 설정 필터를 사용해 보는 것입니다. 이렇게 하면 도움이 될 것입니다. 또한 이전 버전의 ChatGPT Images는 이제 사용자 지정 GPT로 변환되었으므로 이전 버전을 바로 사용할 수 있습니다.

또 다른 주요 한계는 새 모델이 대규모 단체 사진(위)을 포토샵으로 안정적으로 보정할 수 없으며, 보정 후 얼굴 특징이 쉽게 왜곡된다는 점입니다(아래).

지시사항: 그들에게 모두 "OpenAI"라고 인쇄된 티셔츠를 입혀서 모두가 미소 짓게 만들 수 있을까요?

많은 사람들을 대상으로 할 경우, 새로운 모델은 이미지 편집 과정에서 각 개인의 얼굴 특징을 정확하게 유지하기가 어려워집니다.

또 다른 주요 제한 사항은 다국어 텍스트 렌더링인데 , 이는 여러 가지 문제를 야기합니다.

저는 이미 중국어를 다 읽었어요... 아랍어와 히브리어 같은 영어 이외의 언어들은 말할 것도 없고요.

과제: 중국어로 음식을 주문할 때 자주 사용하는 표현들을 그림으로 그려주시겠어요?

API: 20% 더 저렴함

API의 GPT Image 1.5는 ChatGPT Images와 동일한 모든 개선 사항을 제공합니다.

예를 들어, 여러 번의 편집 과정에서 브랜드 로고와 주요 비주얼의 일관성을 높여주기 때문에 그래픽 및 로고 디자인과 같은 마케팅 및 브랜딩 활동은 물론, 전자상거래 팀이 단일 원본 이미지에서 다양한 변형, 장면, 각도를 포함한 완벽한 제품 갤러리를 생성하는 데에도 이상적입니다.

GPT Image 1과 비교했을 때, GPT Image 1.5는 이미지 입력과 출력 모두에서 비용이 20% 절감되어 동일한 예산으로 더 많은 이미지를 생성하고 반복 처리할 수 있습니다.

현재 크리에이티브 도구, 전자상거래, 마케팅 소프트웨어 등 다양한 산업 분야의 기업과 스타트업들이 이미 GPT Image 1.5를 사용하고 있습니다.

울트라맨이 직접 비상 경보를 울렸다.

이번 업데이트는 구글에 대한 강력한 대응이기도 합니다.

지난달, 알트만은 구글 제미니가 시장 점유율 잠식하고 있다는 이유로 긴급 "적색 경보"를 발령했습니다.

하지만 당시 구글은 새로운 플래그십 모델인 제미니 3와 이미지 생성 도구인 나노 바나나 프로를 출시했는데, 특히 나노 바나나 프로는 여러 벤치마크 테스트에서 LMARaena 순위표 1위를 차지했습니다.

구글의 끊임없는 압력 대면 오픈AI는 속도를 빠르게 높였습니다. 약 5일 전에는 GPT-5.2를 출시했고, 이제는 업그레이드된 이미지 모델을 선보였습니다.

이번 OpenAI의 업데이트는 개발자들 사이에서 뛰어난 평판을 얻고 있는 구글의 Nano Banana Pro 에 대한 직접적인 도전으로 보입니다.

OpenAI는 구글 외에도 훨씬 더 많은 경쟁자들 대면.

올해 8월, Qwen-Image는 이미 중국어와 영어 모두에서 읽기 쉬운 텍스트 생성을 지원했으며, Black Forest Labs는 뛰어난 기능을 보여주는 오픈 소스 이미지 모델 Flux.2를 출시했습니다.

인공지능 이미지 모델을 둘러싼 경쟁은 기업 시장을 장악한다는 분명한 목표를 가지고 치열한 양상으로 접어들었습니다.

울트라맨은 새 모델의 수많은 개선 사항과 새로운 편집 기능을 강조했습니다.

오픈AI 애플리케이션 부문 CEO인 피지 시모는 이를 구글의 나노 바나나 프로와 은근히 비교하며, 이번에는 단일 텍스트에서 동적인 AI 경험으로의 전환이라고 언급했습니다.

그녀는 ChatGPT 이미지 및 기타 기능들이 "생각하는 것과 얻는 것 사이의 간극을 줄여줄 수 있다"고 믿습니다.

인간의 사고는 언어를 훨씬 뛰어넘습니다. 실제로 가장 매혹적인 영감은 종종 우리 마음속의 그림, 멜로디, 움직임 또는 패턴에서 시작됩니다. 인공지능이 우리의 잠재력을 최대한 발휘하도록 도우려면, 우리가 익숙한 방식, 즉 이해하고 표현하고 소통하는 방식을 활용해야 합니다.

피지 시모는 오픈아이얼이 이미지 생성기 외에도 ChatGPT의 시각적 경험을 전면적으로 업그레이드하고 있다고 밝혔습니다.

지난 몇 달 동안 저는 ChatGPT의 진화에 대해 이야기해 왔습니다. ChatGPT는 수동적인 텍스트 기반 제품에서 사용자가 달성하고자 하는 작업과 더욱 밀접하게 연결된 직관적이고 지능적인 어시스턴트로 변모하고 있습니다.

일반 텍스트에서 멀티모달 및 동적 UI(사용자 인터페이스)로의 전환은 이러한 변화의 핵심 부분이며, 저는 이러한 발전을 매우 기대하고 있습니다.

피지 시모는 앞으로 사용자들이 답변을 찾을 때 더 많은 시각적 정보와 명확한 자료를 접할 수 있을 것이라고 밝혔습니다. 예를 들어, 단위 변환이나 경기 점수 확인과 같은 상황에서는 텍스트보다 도표가 훨씬 직관적일 것입니다.

하지만 GPT Image 1.5와 Nano Banana Pro를 경험한 네티즌들은 OpenAI가 이번에는 "아이디어가 고갈됐다"고 직설적으로 말했다.

개구리 머리가 울트라맨을 조롱하는 밈이 퍼지고 있다.

슬픈 개구리 또는 페페 더 프로그 이미지(왼쪽)는 오픈아이얼의 티저 이미지(오른쪽)와 매우 유사합니다. 배경, 텍스트, 시선, 옷차림까지 모두 같습니다.

이것은 울트라맨과 관련하여 몇 가지 시사점을 가지고 있습니다.

하지만 가장 신랄한 비판은 오픈AI의 트윗을 직접적으로 "때린" 네티즌들로부터 나왔습니다.

OpenAI는 완전히 완성되었습니다.

동일한 프롬프트 조건에서 Nano Banana는 GPT Image 1.5에 비해 더욱 사실적이고 자연스러운 이미지를 생성하며 , 이는 전자상거래용 광고 소재 제작에 매우 유리합니다.

아래 이미지에서 위쪽 두 이미지는 GPT Image 1.5로 생성되었고, 아래쪽 두 이미지는 Nano Banana Pro로 생성되었습니다.

사진 설명에는 "침실에 있는 53세 백인 독일 남성. 전형적인 이탈리아식 침실로, 선반에는 상자와 책들이 쌓여 있고, 배경에는 책상 위에 아이맥과 서류들이 흩어져 있다. 그는 회색 후드티(심플한 로고가 있음)를 입고, 결혼반지를 끼고, 손목에는 은은한 빨간색 팔찌를 착용하고 있다. 자연스럽고 솔직한 모습으로 카메라를 똑바로 응시하고 있다."라고 적혀 있다.

하지만 일부 네티즌들은 GPT Image 1.5로 생성된 "머스크와 울트라맨 크리스마스 사진"이 너무나 사실적이어서 흠잡을 데가 하나도 없다고 댓글을 달았습니다.

제미니 3.0 플래시가 곧 출시될 예정인 점을 고려하면, 새로운 나노 바나나 이미지 생성 기능은 더 빠르고 저렴할 수 있습니다. 오픈아이얼의 이미지 1.5가 "헛된 노력"인지 여부는 알 수 없습니다.

OpenAI의 긴급 경보는 당분간 멈추지 않을 것이 확실합니다.

참고: HYJ

https://x.com/OpenAI/status/2000990989629161873

https://openai.com/index/new-chatgpt-images-is-here/

이 글은 위챗 공식 계정 "신지위안" 의 글이며, 작성자는 신지위안이고, 36Kr의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트