AI 원시 이미지의 "얼굴 붕괴" 해결에 특화되어 GPT보다 8배 빠른 FLUX.1의 새로운 버전은 모든 측면에서 SOTA를 새롭게 합니다.

avatar
36氪
05-30
이 기사는 기계로 번역되었습니다
원문 표시

【요약】플럭스(Flux).1 콘텍스트는 실시간 텍스트 이미지 편집과 텍스트-이미지 생성을 융합한 차세대 모델로, 텍스트 및 이미지 프롬프트를 지원하며, 캐릭터 일관성이 강하고 GPT-Image-1의 8배 속도로 빠릅니다.

AI로 이미지를 생성 및 편집할 때 완전한 스토리 템플릿을 만들고 싶지만, 주인공의 얼굴이 책장을 넘기는 것보다 더 빨리 바뀌는 문제가 있다면 어떻게 해야 할까요?

걱정 마세요, 완전히 새로운 이미지 모델 플럭스(Flux).1 콘텍스트가 등장했습니다! 컨텍스트 내 이미지 생성을 지원하며, 텍스트와 이미지를 동시에 프롬프트로 사용할 수 있고, 시각적 개념을 원활하게 추출하고 수정하여 새롭고 일관된 이미지를 생성할 수 있습니다.

논문 주소: https://bfl.ai/announcements/flux-1-kontext

플럭스(Flux).1 콘텍스트는 이미지를 생성하고 편집할 수 있는 생성형 흐름 매칭 모델 시리즈입니다. 기존의 텍스트-이미지 모델과 달리, 플럭스(Flux).1 콘텍스트 시리즈는 컨텍스트 내 이미지 생성을 지원합니다.

일관되고 컨텍스트를 인식하는 텍스트-이미지 생성 및 편집

당신의 이미지, 당신의 텍스트, 당신의 세계

플럭스(Flux).1 콘텍스트는 실시간 텍스트 이미지 편집과 텍스트-이미지 생성을 융합함으로써 클래식 텍스트-이미지 모델의 중요한 확장을 의미합니다.

다중 모드 흐름 모델로서, 최첨단 캐릭터 일관성, 컨텍스트 이해 능력, 로컬 편집 기능을 결합하면서 동시에 강력한 텍스트-이미지 합성 능력을 갖추고 있습니다.

(이하 생략)

구현 세부 사항

순수 텍스트에서 이미지를 생성하는 모델 체크포인트로부터 시작하여, 이미지 생성 이미지와 텍스트 생성 이미지 두 가지 작업을 위해 모델을 공동 미세 조정합니다.

해당 방법은 본질적으로 여러 입력 이미지를 지원하지만, 현재는 단일 이미지를 조건 입력으로 사용하는 데 집중하고 있습니다.

플럭스(Flux).1 콘텍스트[pro]는 먼저 흐름 목표로 훈련한 후 LADD 훈련을 진행합니다. Meng 등이 제안한 기술을 사용하여 지도 증류 방법을 120억 개의 매개변수를 가진 확산 트랜스포머 모델에 적용하여 플럭스(Flux).1 콘텍스트[dev]를 얻었습니다.

플럭스(Flux).1 콘텍스트[dev]의 편집 작업 성능을 향상시키기 위해 이미지 생성 이미지 훈련에 집중하고 순수 텍스트 생성 이미지 훈련은 수행하지 않았습니다.

원치 않는 개인 이미지(NCII)와 아동 성적 착취 콘텐츠(CSEM) 생성을 방지하기 위해 분류기 기반 스크리닝과 대항 훈련을 포함한 안전 훈련 메커니즘을 도입했습니다.

연구원들은 FSDP2를 채택하고 혼합 정밀도 훈련을 결합했습니다: all-gather 작업은 bfloat16을 사용하고, 그라디언트의 reduce-scatter 작업은 수치 안정성을 높이기 위해 float32를 사용했습니다.

또한 최대 GPU 메모리 사용량을 줄이기 위해 선택적 활성화 체크포인트 메커니즘을 사용했습니다.

처리량을 높이기 위해 플래시 어텐션을 채택하고 각 트랜스포머 모듈에 대해 로컬 컴파일 최적화를 수행했습니다.

위는 제품의 사진 작품 효과입니다. (a) 전체 의상 스타일을 보여주는 입력 이미지. (b) 추출된 드레스를 흰색 배경에 배치하여 제품 사진 스타일로 표현. (c) 드레스 소재의 클로즈업, 질감과 패턴 세부 사항을 강조.

현재 플럭스(Flux).1 콘텍스트는 실제 응용에서 여전히 몇 가지 한계가 있으며, 예를 들어 다중 라운드 편집이 과도할 경우 시각적 가상 이미지를 도입하여 이미지 품질이 저하될 수 있습니다.

하지만 동일한 초기 이미지와 동일한 편집 지시를 기반으로, 다른 모델을 사용한 반복 편집 예시(상단: 플럭스(Flux).1 콘텍스트, 중간: gpt-image-1, 하단: Runway Gen4)에서 플럭스(Flux).1 콘텍스트는 얼굴 특징 유지 측면에서 다른 모델보다 우수합니다.

플럭스(Flux).1 콘텍스트와 콘텍스트벤치(KontextBench)의 출시는 이미지 생성 및 편집의 통합 연구를 위한 견고한 기반과 완전한 평가 프레임워크를 제공하여 해당 분야의 지속적인 발전을 기대하게 합니다.

참고 자료:

https://bfl.ai/announcements/flux-1-kontext

https://cdn.sanity.io/files/gsvmb6gz/production/880b072208997108f87e5d2729d8a8be481310b5.pdf

본 기사는 위챗 공식 계정 "신지원"에서 가져왔으며, 작성자: 편집: 정혜, 36크에서 허가를 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트