GPT-4o의 오픈소스 버전이 출시되었습니다. 본 17B 국산모델은 4o에 버금가는 로우이미지 효과를 가지고 있으며 상업적으로도 활용이 가능합니다.

04-15

이 기사는 기계로 번역되었습니다

원문 표시

얼마 전, GPT-4o가 큰 인기를 얻었습니다. 극적으로 향상된 이미지 처리 및 이미지 수정 기능으로 인해 누구나 사용해보고 싶어했습니다. OpenAI는 나중에 무료 사용자도 사용할 수 있다고 발표했지만, 이미지 출력 속도가 느리고 사용 횟수가 제한되어 있어 ChatGPT에 가입하지 않은 일반 사용자는 여전히 불편함을 겪고 있습니다.

그렇다면 GPT-4o 외에 다른 옵션은 있나요? Artificial Analysis의 Vincent Figure Large Model Arena에서 찾아보세요.

이 분야에서는 얼마 전 2위를 차지했던 모델인 17B 매개변수와 GPT-4o를 갖춘 HiDream-I1이 매우 가까운 점수를 받았다는 것을 발견했습니다.

AI 벤치마킹 및 분석 플랫폼인 Artificial Analysis는 트위터를 통해 HiDream-I1이 Wenshengtu의 오픈 소스 모델을 위한 새로운 SOTA가 되었다고 발표했습니다. 이 플랫폼은 모델을 평가하기 위해 아레나 모드를 사용합니다. 즉, 서로 다른 모델이 동시에 생성한 두 개의 이미지를 제공하여 사람이 프롬프트에 가장 잘 맞는 이미지를 선택할 수 있도록 합니다.

이 모델은 출시 후 24시간 만에 인공 분석 분야에서 1위를 차지했으며, 중국이 자체 개발한 생성 AI 모델로는 최초로 1위를 차지했다는 점도 언급할 가치가 있습니다.

몇 가지 비교 사진을 보면 HiDream-I1의 생성 효과가 GPT-4o만큼 좋고, "Midjourney를 폐위시킨" FLUX1.1[pro]보다도 더 뛰어난 것을 알 수 있습니다. 요점은, 이 세 가지 모델 중에서 HiDream-I1만이 오픈 소스 이고, 상업적 사용(MIT 프로토콜)을 허용하는 종류의 오픈 소스라는 것입니다.

HiDream-I1 모델: https://huggingface.co/HiDream-ai/HiDream-I1-Full
HiDream-I1 코드: https://github.com/HiDream-ai/HiDream-I1

게다가 이 모델을 오픈소스로 공개한 국내 기업인 지샹 퓨처(Zhixiang Future)는 대화형 이미지 편집을 지원하는 또 다른 모델인 HiDream-E1 을 곧 오픈소스로 공개할 것이라고 발표했습니다. GPT-4o와 마찬가지로 제공한 이미지를 원하는 스타일과 콘텐츠로 수정할 수 있습니다. 이 두 가지 기능을 결합하면 GPT-4o의 이미지 생성 및 편집 기능과 유사한 "말한 대로 말한 것" 효과를 얻을 수 있으며, "GPT-4o의 오픈 소스 버전"의 빈틈을 메웁니다.

HiDream-E1 모델의 이미지 편집 효과는 곧 오픈 소스로 공개될 예정입니다.

그렇다면, HiDream-I1의 장점은 무엇일까요? 더 자세한 분석을 위해 더 많은 사례를 살펴볼 수 있습니다.

HiDream-I1의 RAW 이미지 효과는 어떤가요?

GPT-4o와 FLux가 인기를 얻은 이유는 생성된 이미지가 사실적이고 섬세하며 지시를 잘 따를 수 있기 때문입니다.

HiDream-I1이 "GPT-4o의 오픈소스 버전"이라는 타이틀을 가질 수 있는지 테스트하기 위해, 우리는 OpenAI가 얼마 전 GPT-4o의 새로운 기능을 공식 발표했을 때 발표한 몇 가지 프롬프트를 참조하여 테스트했습니다.

GPT-4o 블로그에 생성된 예제와 프롬프트가 제공됩니다.

HiDream-I1에서 생성된 결과는 다음과 같습니다.

프롬프트: 넓고 고요한 바다를 오른쪽에서 왼쪽으로 질주하는 말의 사실적인 사진으로, 말 발굽 아래의 물보라, 반사, 미묘한 잔물결 무늬를 정확하게 묘사하고 있습니다. 말의 움직임을 과장하되, 그 외의 모든 것은 움직이지 않고 조용해야 말의 힘과 대조를 이룰 수 있습니다. 구성이 깔끔하고 영화적입니다. 먼 지평선을 보여주는 넓은 파노라마 구성입니다. 대기의 관점은 깊이를 만들어냅니다. 확대된 말은 광활한 바다에 비하면 하찮아 보인다.

팁: 과일 접시 사진에 실제 과일과 작은 행성(목성, 토성, 화성, 지구)을 섞어서, 실제 반사, 조명, 그림자를 원본 이미지와 일관되게 유지하고, 구성이 깔끔하고, 질감이 실제적이고, 디테일이 선명하게 표현되도록 합니다.

힌트: 버려진 지하철 차량 창문으로 돌고래가 헤엄치는 사실적인 수중 장면. 거품과 물의 흐름이 정밀한 디테일로 시뮬레이션되었습니다.

힌트: 이 파파라치 스타일의 솔직한 사진은 칼 마르크스가 몰 오브 아메리카 주차장을 서둘러 지나가는 모습을 담고 있으며, 사진을 피하려고 애쓰면서 놀란 표정으로 주변을 둘러보고 있습니다. 그의 손에는 사치품으로 가득 찬 반짝이는 쇼핑백이 여러 개 들려 있었습니다. 그의 코트는 바람에 펄럭였고, 그의 가방 중 하나는 마치 그가 긴 걸음을 내딛는 것처럼 흔들렸다. 움직임을 강조하기 위해 흐릿한 배경과 자동차, 빛나는 쇼핑몰 입구를 사용했습니다. 카메라 플래시로 인해 이미지가 부분적으로 과다 노출되어 흐릿한 타블로이드 신문 같은 느낌이 들었습니다.

전반적으로, HiDream-I1이 생성한 이미지는 사실감과 섬세함 측면에서 GPT-4o의 이미지와 매우 유사하며, 때로는 그보다 더 뛰어납니다. Flux와 비교해 보면 이 특징은 더욱 분명해집니다.

예를 들어, 아래 예에서 HiDream-I1로 생성한 이미지는 질감, 배경 세부 사항, 객체 간의 위계 감각(고양이의 털은 빛 아래에서 뚜렷하게 나타나 강한 생명감을 주고, 커피 포트의 스테인리스 스틸 소재는 빛을 적절히 반사하여 사실적인 질감을 보여줌) 등 더욱 섬세한 요소를 담고 있습니다. 비교해 보면, Flux 역시 세부 묘사가 좋은 이미지를 생성할 수 있지만, 세부적인 텍스처는 HiDream-I1만큼 섬세하고 풍부하지 않습니다.

프롬프트: 귀여운 오렌지색 고양이가 커피 분쇄기 옆에 앉아서 발로 분쇄기 손잡이를 천천히 돌리고 있습니다. 고양이의 집중된 표정과 부드러운 구르릉거림이 아늑하고 평화로운 주방에 담겨 있습니다. 부드럽고 따뜻한 빛이 창문을 통해 들어와 고양이와 그라인더에 은은한 빛을 비추며 고요한 분위기를 더해줍니다. 이 장면은 사실적인 스타일로 묘사되어 평온함과 친밀감을 강조합니다.

색상 표현 측면에서도 HiDream-I1의 성능이 더 뛰어나고, 뚜렷한 레이어와 다양한 톤의 이미지를 생성할 수 있습니다(아래 그림에서 늑대의 얼굴 털을 자세히 살펴보면, HiDream-I1과 GPT-4o의 색상 레이어가 더 풍부합니다). 플럭스의 색상 사용 역시 매우 풍부하지만, 일부 장면에서는 색상 매칭과 전환이 비교적 단순해 보이며, 채도와 레이어링이 일정 수준 부족합니다.

큐: 음악가의 턱시도를 입은 3D 늑대. 사람처럼 두 발로 똑바로 서서 기타를 들고, 앰프와 무대에 둘러싸인 이곳은 예술과 우아함이 넘치는 분위기를 자아냅니다.

또한, 이러한 현실감과 섬세함은 모델이 객관적인 법칙을 이해하는 데서 비롯됩니다. 아래 그림에서 볼 수 있듯이, HiDream-I1은 객관적 법칙을 더 정확하게 이해합니다. HiDream-I1은 사물의 배치, 캐릭터의 움직임과 자세, 주변 환경의 빛과 그림자 효과 등 실제 세계에 부합하는 자연 법칙을 표현할 수 있습니다. 하지만 Flux는 이 부분에서 몇 가지 한계를 가지고 있습니다. 특히 역동적인 장면과 복잡한 물리적 상호 작용을 처리할 때 모델의 성능은 충분히 현실적이지 않으며 물리 법칙을 따르지 못하는 경우가 많습니다.

프롬프트: 음악가의 턱시도를 입은 3D 고양이가 두 발로 똑바로 서서 바이올린을 들고 있으며, 휘몰아치는 음표와 그랜드 피아노에 둘러싸여 예술적이고 우아한 분위기를 자아냅니다. 스포트라이트가 장면을 비추면서 극적이고 세련된 분위기를 연출합니다.

복잡한 프롬프트 단어를 접하더라도 이러한 특징은 HiDream-I1이 생성한 이미지에서 그대로 유지됩니다. 이는 복잡한 텍스트를 이해하고 따라갈 수 있는 모델의 능력을 반영한 것입니다.

HiDream-I1로 생성한 이미지입니다. 프롬프트: 중세 성의 돌담, 카메라를 바라보는 갑옷을 입은 전사, 그리고 그 뒤로 튀어오르는 불꽃이 거친 얼굴 윤곽을 그려냅니다. 바람에 녹슨 사슬 갑옷에 불꽃이 튀었고, 그의 오른손은 무의식적으로 허리에 찬 칼자루를 움켜쥐었고, 짙은 갈색 망토는 더위 속에서 격렬하게 펄럭였다. 멀리 있는 탑에서 불타는 화살이 계속 떨어졌고, 주황빛 붉은 불꽃이 남색 밤하늘과 뚜렷한 대조를 이루며 흉벽의 벗겨진 이끼와 전사들의 이마에 있는 오래된 상처를 비췄습니다.

위의 시각적 효과는 다양한 벤치마크 테스트 데이터에서 확인되었습니다.

첫 번째는 인간의 선호도 선택 데이터 세트를 기반으로 훈련된 선호도 예측 모델인 HPSv2.1로 , 동일한 프롬프트에서 생성된 다양한 이미지의 점수를 비교할 수 있습니다. 이 벤치마크에서 HiDream-I1은 애니메이션, 컨셉 아트, 페인팅, 사실적 사진 등 다양한 스타일에서 최첨단 성능을 달성했습니다. 이는 HiDream-I1이 생성한 다양한 스타일의 이미지가 인간의 미학에 더 부합한다는 것을 보여줍니다.
다음은 GenEval과 DPG-Bench 입니다. 전자는 객체를 감지하고 색상 분류를 통해 생성된 이미지와 텍스트 프롬프트 간의 일치 여부를 확인하는 반면, 후자는 생성된 이미지에서 여러 객체, 세부적인 속성 및 복잡한 관계를 감지하는 데 중점을 둡니다(이 벤치마크는 프롬프트가 길고 복잡할 때 적합합니다). 두 벤치마크 모두에서 HiDream-I1이 가장 좋은 성능을 달성했습니다. 이는 HiDream-I1이 지시를 따르는 강력한 능력을 가지고 있음 을 보여줍니다.

HPSv2.1에 대한 HiDream-I1 점수 데이터.

GenEval에서 HiDream-I1의 점수 데이터입니다.

DPG-Bench에서 HiDream-I1의 점수 데이터입니다.

원시 이미지의 품질을 개선하기 위해 지샹은 앞으로 어떤 기술적 개선을 했습니까?

지시를 따르는 강력한 능력과 현실적이고 섬세한 생성 효과는 본질적으로 기술의 발전 덕분입니다.

모델의 텍스트 이해 능력을 향상시키기 위해 HiDream-I1은 "Sparse Diffusion Transformer(Sparse DiT)" 라는 새로운 아키텍처 디자인을 채택했습니다. 이 아키텍처는 DiT 프레임 하에 Sparse Mixture-of-Expert(MoE) 기술을 통합하여 다양한 전문가 모델이 각자의 전문 분야를 가진 다양한 유형의 텍스트 입력을 처리할 수 있도록 합니다.

동시에 이러한 아키텍처 설계는 모델 성능을 개선하는 동시에 컴퓨팅 오버헤드를 제어하는 추가적인 이점을 제공하며, 이를 통해 HiDream-I1은 매우 비용 효율적입니다. 이는 오픈 소스 모델의 해시레이트 소비에 대해 우려하는 개인 개발자와 스타트업에게 매우 유용한 최적화입니다.

HiDream-I1 모델 아키텍처 다이어그램.

이미지 품질의 향상은 연구자들이 생성적 적대 학습을 확산 모델 정제에 통합한 데 기인합니다. GAN은 세부 사항을 포착하고 모서리를 선명하게 하는 기능을 갖추고 있어 생성된 이미지의 사실감과 선명도가 더욱 향상되었으며, 확산 모델을 정제하여 속도와 품질을 두 배로 최적화했습니다.

이런 방식으로 훈련된 HiDream-I1은 강력한 확장성을 가지고 있다는 점이 언급할 가치가 있습니다. 모델이 학습된 직후, Zhixiang Future는 이를 대화형 이미지 편집 대형 모델인 HiDream-E1로 확장하여 이미지 편집 시나리오에서 "GPT-4o의 오픈 소스 버전"을 사용할 수 있게 했습니다.

HiDream 시리즈 모델은 오픈 소스이며 그 영향은 처음에 입증되었습니다.

실제 측정 결과나 벤치마크 테스트 결과에서 보더라도, 지샹퓨처의 하이드림-I1은 이미 GPT-4o와 매우 유사하며, 국내 영상 세대의 선두주자로 확고히 자리매김했습니다.

게다가 이 모델은 오픈소스이기 때문에 국제적인 영향력도 점차 확대되고 있습니다. 오픈소스가 출시된 지 이틀 후, 빈센트 모델 아레나의 또 다른 모델 회사인 Recraft AI는 HiDream-I1을 통합했으며 네티즌들에게 이 모델을 선택하는 방법을 가르쳤다고 발표했습니다.

HuggingFace 트렌드 목록에서 HiDream-I1이 2위로 뛰어올랐습니다. 이는 HiDream-I1이 상당한 다운로드와 좋아요를 받았으며, 커뮤니티에서 매우 인기가 있음을 보여줍니다.

물론, 현지 배치 요구 사항이 없는 친구도 Zhixiang Future의 공식 플랫폼인 Vivago에서 HiDream-I1을 체험할 수 있습니다. 이 플랫폼은 더욱 완벽한 워크플로를 갖추고 있으며, 생성된 이미지를 기반으로 한 비디오 제작 등의 2차 창작을 지원합니다.

지샹은 앞으로 멀티모달 에이전트 제품 도 출시할 예정이라고 합니다. 이 서비스의 핵심은 모든 사람이 대화와 채팅 형태로 사진/비디오를 생성하고, 자연어를 사용하여 사진/비디오 콘텐츠를 적절히 편집하여 스토리라인이 있는 콘텐츠를 점진적으로 생성할 수 있도록 하는 것입니다. 편의성은 사용자가 여러 플랫폼에서 필요한 기능을 선택하고 호출하거나 복잡한 매개변수를 조정할 필요가 없다는 것입니다.

지샹 퓨처(Zhixiang Future)의 CTO인 야오팅(Yao Ting)은 이 모델 개선 및 제품 개발 컨셉을 다음과 같이 설명했습니다. 애플리케이션 측면에서 현실성, 지시 이행, 내러티브 기능이 사용자가 비용을 지불하는 기반이기 때문에 지샹 퓨처는 모델 개선 과정에서 항상 이 세 가지 속성에 주의를 기울입니다. 오늘날 그들은 이 세 가지 사항을 새로운 수준으로 끌어올렸고, 또한 모델을 오픈 소스화했습니다. 이는 이 분야에서 애플리케이션을 개발하고자 하는 개발자나 회사가 겪는 기본적인 장애물을 제거했다고 할 수 있습니다.

지샹의 R&D 인력은 다음 오픈소스 모델인 HiDream-E1이 곧 오픈소스가 될 것이며, 관련 벤치마크 테스트 데이터도 가까운 시일 내에 공개될 것이라고 밝혔습니다. 이 모델이 훌륭한 편집 경험을 가져다주기를 기대합니다.

본 기사는 WeChat 공개 계정 "Machine Heart"(ID: almosthuman2014) 에서 발췌하였으며, 저자는 Machine Heart이고, 36Kr에서 허가를 받아 게시하였습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트