세계 최고 수준의 AI 애플리케이션을 둘러싼 오픈AI와 구글의 경쟁이 공세의 새로운 국면에 접어들었다.
베이징 시간으로 수요일 이른 아침, 오픈아이언(OpenAI)은 챗GPT 이미지 처리 기능의 새로운 버전을 발표했습니다. 향상된 이미지 생성 품질과 속도 외에도, 새로운 이미지 모델은 이미지 편집 정확도 면에서도 상당한 발전을 이루었습니다. 간단히 말해, 오픈아이언은 구글의 호평받는 나노 바나나(Nano Banana) 시리즈 모델에 대한 반격을 가하는 동시에 포토샵의 근간을 흔드는 행보를 보이고 있습니다.
OpenAI는 최신 플래그십 이미지 생성 모델을 기반으로 하는 "ChatGPT Image" 기능이 디테일을 보존하면서 정밀한 편집을 가능하게 하여 원하는 결과를 얻을 가능성을 높인다고 밝혔습니다. 디테일을 유지하면서 정밀하게 편집하는 이 기능은 최대 4배 더 빠릅니다 .
물론 이미지 생성 모델의 효과는 이미지를 통해 입증되어야 합니다.
이번 업그레이드의 가장 중요한 개선점으로, 오픈아이얼은 새로운 모델이 이미지의 원본 특성을 보존하면서 원하는 보정 효과를 얻기 위해 추가, 삭제, 병합, 혼합 및 전치와 같은 다양한 유형의 정밀 편집에 탁월하다는 점을 설명합니다 .
예를 들어, 다음은 ChatGPT의 새로운 이미지 모델로 생성된 1990년대 후반 로스앤젤레스 거리 사진의 데모입니다.
→캐릭터의 셔츠를 빨간색으로 , 모자를 노란색으로 , 제한 속도를 15 로, 트럭을 소방차로 바꾸세요.
→왼쪽에 구경꾼 무리 , 오른쪽 인도에 앉아 있는 독수리 , 그리고 멀리 머리 위로 날아가는 우주선을 추가하세요.
→ 이 이미지가 전체적으로 인쇄된 티셔츠가 빨랫줄에 걸려 있습니다.
→그 티셔츠를 스케이트보더에게 입혀주세요.
AI 기반 이미지의 중요한 응용 분야 중 하나인 ChatGPT Images는 기존 이미지를 창의적으로 변형하는 데에도 상당한 진전을 이루었습니다. 예를 들어, CEO인 알트만의 개인 사진을 1980년대 미국 에어로빅 강사의 이미지로 바꾸거나, 세계적으로 유명한 그림 "진주 귀걸이를 한 소녀"에 그의 얼굴을 합성할 수 있습니다.
게다가 ChatGPT는 텍스트가 풍부한 다이어그램 생성이라는 구글의 전통적인 강점에도 도전장을 내밀고 있습니다. OpenAI는 이 모델이 텍스트 렌더링에서 한 단계 더 나아가 더 빽빽하고 작은 텍스트도 처리할 수 있다고 밝혔습니다.
ChatGPT가 실제 글꼴과 구별할 수 없을 정도로 사실적인 영어 글꼴을 생성할 수 있지만, 공식 개발팀은 이 새로운 모델이 중국어, 아랍어, 히브리어 글꼴 생성에는 여전히 한계가 있음 을 인정하고 있다는 점에 유의해야 합니다.
따라서 적어도 중국어 텍스트 이미지 생성 측면에서는 Nano Banana가 ChatGPT를 여전히 완전히 능가합니다 .
새로운 이미지 생성 모델은 더욱 강력하면서도 비용 효율적이라는 점에 주목할 필요가 있습니다. GPT Image 1과 비교했을 때, 업그레이드된 GPT Image 1.5는 이미지 입력 및 출력 비용을 모두 20% 절감합니다.
이 글은 위챗 공식 계정 "과학기술혁신일보" 에 게재된 글이며, 저자는 스정청(Shi Zhengcheng)이고, 36Kr의 허가를 받아 게시되었습니다.




