Vivago의 HiDream 이미지 생성기가 주요 업체들을 제치고 오픈 소스 AI를 다시 위대하게 만들다

avatar
Decrypt
04-16
이 기사는 기계로 번역되었습니다
원문 표시

비바고 AI는 지난주에 HiDream-I1을 출시했으며, 이미 플럭스(Flux), 아우라플로우(Auraflow), 스테이블 디퓨전 3.5와 같은 기존 모델을 능가하며 최고의 이미지 생성기 상위 5개 중 하나로 자리 잡았습니다. 심지어 미드저니 v7, 이데오그램 v3, 레브(Reve)와 같은 일부 최고의 폐쇄형 모델도 뛰어넘었습니다.

비바고는 홍콩에 기반을 둔 스파킹 이노베이션스 리미티드에서 개발한 AI 기반 크리에이티브 플랫폼으로, 시각 콘텐츠 생성 및 편집을 위한 도구 모음을 제공합니다.

HiDream은 세 가지 버전으로 제공됩니다: "Full" 버전은 최고 품질의 출력을 제공하며 좋은 이미지를 렌더링하는 데 50단계가 필요합니다. "Dev" 버전은 약 30단계에서 작업을 수행하고, "Fast" 버전은 좋은 결과를 얻는 데 약 16단계가 소요됩니다.

물론 모델이 더 많은 단계를 거칠수록 이미지가 더 상세해지지만, 더 많은 리소스가 필요합니다.

하지만 이러한 모델들의 차이점은 무엇일까요?

우선, 그 크기입니다. HiDream은 170억 개의 매개변수를 갖추고 있어 몇 초 만에 여러 스타일의 고품질 이미지를 생성할 수 있습니다. 참고로, 스테이블 디퓨전의 SD3.5는 거의 절반 크기입니다.

HiDream-I1은 검열되지 않았으며 상업적으로 친화적입니다. MIT 라이선스에 따라 "개인 및 상업 프로젝트 모두에 대해 제한 없는 사용"이 가능합니다.

그러나 비바고는 "문제가 있는 콘텐츠"를 제거하기 위해 훈련 데이터를 필터링했지만, 출력을 제한하지 않아 사용자에게 "완전한 창의적 자유"를 제공합니다. 즉, NSFW 이미지를 생성하려면 미세 조정된 버전이 필요할 것입니다.

(문제가 있는 콘텐츠에는 홍콩 기반 기업임에도 불구하고 중국 시진핑 주석의 모독적인 이미지 생성이 포함되지 않습니다.)

사용자는 이를 로컬로 실행하기 위해 상당한 하드웨어가 필요합니다.

전체 모델은 실행을 위해 27GB의 VRAM이 필요하며, 이는 약 2,500달러부터 시작하는 거대한 GPU에서만 제공될 수 있습니다.

그러나 이미지 생성기 출시 며칠 만에 개발자들은 16GB의 VRAM만 필요한 "적당한" 설정에서 실행할 수 있는 양자화 버전을 만들기 시작했습니다.

고성능 하드웨어가 없는 사용자를 위해 비바고는 자사 플랫폼을 통한 온라인 액세스를 제공하며, Hugging Face 공간 데모도 있습니다. 팔 AI도 저렴하게 Hidream을 지원합니다:

(이하 생략)

심지어 빠른 버전도, 세부 사항과 정확성을 명백히 희생하면서도, 몇 달 전만 해도 최첨단으로 간주되었을 결과를 여전히 생성합니다.

폐쇄형 경쟁사와 달리, HiDream의 MIT 라이선스와 오픈소스 특성은 예술가, 개발자, 기업들이 자유롭게 적용하고 구축할 수 있음을 의미합니다.

높은 하드웨어 요구 사항은 중요한 장벽을 제시하지만, 역사가 반복된다면 커뮤니티는 더 넓은 접근성을 위해 모델을 계속 최적화할 것입니다.

상업용 모델의 검열에 제한되거나 라이선스 제한에 좌절했던 창작자들에게 HiDream은 매력적인 대안을 제공합니다.

모델은 클라우드 서버에서 사용량 기반으로 실행하기에 상당히 저렴하며, 이는 월간 또는 연간 구독료를 부과하는 폐쇄형 모델에 대한 강력한 대안이 됩니다.

양자화 버전(소형 모델)이 개선되고 더 많은 미세 조정된(맞춤형) 모델이 등장함에 따라 HiDream의 생성형 AI landscape에 대한 영향력은 더욱 커질 것입니다.

단지 몇 주만 기다리고 Hugging Face와 Civitai에서 업데이트를 확인하세요. 그동안 플럭스(Flux) 미세조정은 여전히 매우 강력하고 효율적입니다.

편집: 세바스찬 싱클레어

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트