LoRA, GPT-4o급 이미지 편집 구현, 저장대·하버드대 신모델, 허깅페이스 2위 기록

05-07

이 기사는 기계로 번역되었습니다

원문 표시

[서론] Gemini 및 GPT-4o와 같은 대형 상용 모델이 텍스트 기반 이미지 편집 작업을 새로운 정점으로 끌어올리면서, 더 큰 매개변수를 사용하여 학습 및 학습 모델을 위한 더 높은 품질의 편집 데이터를 확보하는 것이 이미지 편집 성능을 개선하는 유일한 방법인 것처럼 보입니다. 하지만 저장대학교-하버드 연구팀은 그 반대의 일을 했습니다. 그들은 기존 연구의 전체 데이터(공개 데이터 세트에서 얻은 것)의 0.1%만 사용했고, 훈련 매개변수의 1%만 사용했으며, 매우 낮은 비용으로 고품질 이미지 편집을 달성했습니다. 어떤 면에서는 대형 상업 모델과 비슷하거나 심지어 더 뛰어납니다!

텍스트 지시에 따른 이미지 편집 작업은 이미지 생성 및 편집 분야에서 늘 이슈 되어 왔습니다. Prompt2prompt부터 InstructPix2Pix, EmuEdit부터 최신 GPT4o까지, 그들은 끊임없이 AI 이미지 편집의 수준을 높이고 있습니다.

일반적으로 이러한 모델은 두 가지 주요 범주로 분류할 수 있습니다. 하나는 학습이 필요 없는 이미지 편집이고, 다른 하나는 학습이나 미세 조정 기반 이미지 편집입니다. 학습이 필요 없는 이미지 편집은 일반적으로 프롬프트 단어를 대체하고, 주의 맵을 조작하고, 사전 학습된 이미지 확산 모델에서 이미지 반전을 수행하여 달성됩니다. 훈련 비용은 절감할 수 있지만, 작업 과정이 복잡하고, 편집 효과가 불안정하며, 편집 작업 유형이 단일하다는 단점이 있습니다.

해당 학습 기반 방법은 수십만 개(InstructPix2Pix 300k)에서 수억 개(Step1X 20M)에 달하는 대량 의 이미지 편집 데이터를 통한 학습이 필요합니다. 동시에, 확산 모델의 전체 양을 미세 조정하는 데도 대량 리소스가 소모됩니다!

웬셩투 확산 모델을 훈련하는 데 대량 의 데이터가 필요한 주된 이유는 사전 훈련된 웬셩투 모델은 생성적 이미지 설명만 이해할 수 있고, "이 여성에게 선글라스를 쓰게 하세요"와 "이 그림을 지브리 스타일로 만드세요"와 같은 편집 지시는 이해할 수 없기 때문입니다. 그러므로 미세 조정과 훈련을 위해 대량 의 편집 지침과 이미지 쌍이 필요합니다.

최근 저장대학교와 하버드대학교의 연구팀은 ICEdit이라는 새로운 이미지 편집 방법을 제안했습니다. 이 방법은 기존 모델에서 필요한 학습 데이터(50k)의 0.1%와 학습 매개변수(200M)의 1%만 사용하여 다양한 유형의 고품질 이미지 편집 결과를 얻을 수 있습니다.

연구자들은 이미지 편집에서 "비용을 절감하고 효율성을 높이는" 핵심 요소는 텍스트 기반 그래프 모델 자체의 이해 및 생성 능력을 최대한 활용하여 편집 지침을 이해하고 이미지 편집에 직접 사용하는 것이라고 생각합니다.

논문 주소: https://arxiv.org/pdf/2504.20690

프로젝트 홈페이지: https://river-zhang.github.io/ICEdit-gh-pages/

코드 저장소: https://github.com/River-Zhang/ICEdit

허깅 페이스 데모: https://huggingface.co/spaces/RiverZ/ICEdit

ICEdit은 다른 SOTA 모델과 비교하기 위해 데이터 볼륨과 편집 성능을 사용합니다. ICEdit은 50,000개의 교육 데이터만을 사용하여 1,000만 개의 데이터로 교육한 EmuEdit과 비슷한 성능을 달성했습니다.

ICEdit은 허깅 페이스에서 큰 인기를 얻었고, 트렌드 목록 상위 5위에 올랐으며, 트위터에서 많은 V가 리트윗했습니다.

DiT(Diffusion Transformer) 텍스트-그래프 모델(SD3, FLUX.1 dev 등)은 확장성과 긴 텍스트 의미 이해 측면에서 강력한 성능을 보였고 생성된 결과의 품질도 매우 높았기 때문에 점점 더 많은 연구에서 다양한 이미지 생성 작업을 완료하기 위한 기반으로 DiT 모델을 선택하고 있습니다. 본 논문에서는 또한 DiT 멀티모달 대형 모델을 기반으로 한 이미지 편집 기능을 살펴본다.

연구진은 DiT 모델이 맥락적 단서 단어를 사용하여 쌍화(diptych) 형태 로 결과를 생성하도록 했을 때, 예를 들어 "같은 남자의 두 개의 나란히 놓인 쌍화. 왼쪽은 서 있는 남자의 사진이고, 오른쪽은 농구공을 든 남자의 사진"과 같은 쌍화 이미지 형태로 결과를 생성하도록 했을 때, 생성된 좌우 이미지는 매우 강력한 피사체 식별을 유지한다는 것을 발견했습니다. 이 기능은 OminiControl, UNO 등과 같이 주제 중심 생성 작업을 위한 데이터 세트를 생성하는 많은 작업에서도 사용되었습니다.

모델은 편집 지침을 맥락적 단서에 통합한 후 편집 지침을 올바르게 이해하고 해당 결과를 생성합니다.

한 걸음 더 나아가, "이 남자가 농구공을 잡게 하세요"와 같은 편집 명령이 있는 경우, 그 명령이 직접 입력되면 모델은 그 명령을 생성하는 방법을 이해하지 못할 것입니다. 하지만 이 문장이 맥락적 프롬프트 단어와 통합되어 "같은 남자의 두 개의 나란히 놓인 이미지로 구성된 쌍화점. 왼쪽은 서 있는 남자의 사진이고 오른쪽은 같은 남자지만 {이 남자가 농구공을 들고 있게 하세요}"가 되었을 때, 연구진은 모델이 지시를 이해하고 같은 얼굴이 농구공을 들고 있는 결과를 생성할 수 있음을 발견했습니다. 동시에, "{이 남자가 농구공을 잡게 하세요}"의 주의 지도를 시각화하면 다음이 드러날 것입니다.

이 문장에서 모델은 편집이 발생해야 하는 영역을 알아차렸으며, 이는 모델이 편집 지침을 이해하고 있음을 나타냅니다.

또한, 이 방법을 GPT4o 등 다수의 대형 상용 모델과 비교했을 때, 의미 이해와 편집 다양성 측면에서는 아직 격차가 있지만, 이 모델은 매우 강력한 문자 ID 유지력, 비편집 영역 유지력, 명령어 추종 능력을 보여주며, 어느 정도 GPT4o, Gemini 등 대형 상용 모델보다 더 뛰어납니다.

상업용 모델과 비교했을 때, 이 모델은 소스가 더 오픈되어 있고, 비용이 저렴하며, 속도도 빠릅니다(사진을 편집하는 데 8~10초밖에 걸리지 않음). 매우 강력합니다.

ICEdit 이미지 편집 모델과 여러 대형 상용 모델 간의 편집 결과를 비교한 결과입니다.

컨텍스트 이해에 기반한 두 가지 훈련 없는 이미지 편집 프레임

위에서 언급했듯이, 모델은 편집 지침을 이해하지만 여전히 이미지 처리를 수행 중이며 입력 이미지가 어떤 모습인지 알지 못하기 때문에 여전히 이미지 편집을 완료할 수 없습니다. 이 문제는 어떻게 해결할 수 있나요?

이를 바탕으로 저자는 DiT 모델이 참조 이미지를 수신하고 상황에 맞는 편집 지침에 따라 이미지 편집을 완료할 수 있도록 두 가지 학습이 필요 없는 아키텍처를 시도했습니다.

두 가지 무료 교육 편집 프레임

첫 번째 프레임 DiT 모델을 기반으로 합니다. 이 프레임 의 프로세스는 조금 더 복잡합니다. 간단히 말해서, 편집할 이미지를 먼저 반전시키고, 반전 과정 동안 모델 내부의 이미지 특징은 후속 주입을 위해 보관됩니다(RF-Solver-Edit과 유사).

이미지 반전 후 얻은 노이즈가 있는 이미지는 동일한 크기의 무작위로 초기화된 노이즈와 연결되어 이미지 노이즈 제거를 위한 노이즈 바이맵을 형성합니다.

잡음 제거 과정에서 받은 프롬프트 단어는 " 같은 남자의 두 개의 나란히 놓인 이미지가 있는 쌍화차... 같은 남자지만 {남자가 농구공을 잡도록 하세요} "와 같이 편집 지침이 포함된 맥락 프롬프트 단어입니다. 동시에, 노이즈 제거 과정 동안, 원본 이미지 반전의 특징은 딥틱의 왼쪽에 있는 노이즈 이미지에 지속적으로 주입되는 반면, 오른쪽의 노이즈는 작동하지 않습니다. 최종 결과 이미지의 왼쪽은 원본 이미지를 재구성하는 반면, 오른쪽은 맥락적 프롬프트 단어, 즉 남자가 농구공을 들고 있는 것에 따라 편집한 후 결과를 생성합니다.

또 다른 학습이 필요 없는 프레임 Inpainting DiT(FLUX.1 Fill과 같은 이미지 완성)를 기반으로 합니다. 이 프레임 매우 간단합니다. 편집할 이미지(소스 이미지)를 더블 이미지의 왼쪽에만 놓고, 오른쪽을 인페인팅 영역으로 설정하면 됩니다. 입력 프롬프트 단어는 여전히 편집 지침과 통합된 맥락 프롬프트 단어이며, 편집된 이미지 출력을 볼 수 있습니다.

일반적으로 두 프레임 의 목적은 모델이 참조 이미지를 수신하고 상황에 맞는 지침에 따라 편집을 수행할 수 있도록 하는 것입니다. 훌륭한 편집효과를 보여주지만, 그림에서 볼 수 있듯이 농구공을 든 남자의 ID가 바뀌었고, 캔을 든 여자의 자세도 바뀌었으며, 성공률은 여전히 높지 않습니다.

하이브리드 전문가 LoRA 미세 조정 및 테스트 시간 확장으로 성능이 크게 향상됩니다.

아직 학습 없는 방법의 성능은 제한적이고 성공률도 높지 않지만, 이후 미세 조정을 통해 성능을 개선할 수 있습니다.

저자는 페인팅 프레임 의 단순성을 바탕으로 인터넷의 공개 편집 데이터 세트(MagicBrush 9k+OmniEdit 40k)를 사용하여 LoRA를 미세 조정했습니다. 미세조정 전략은 매우 간단합니다. 데이터 세트의 편집 지침을 통일된 맥락적 형태의 지침으로 변경하기만 하면 됩니다. 즉, " 같은 장면의 나란히 놓인 두 이미지로 구성된 쌍화, 오른쪽의 장면은 왼쪽의 장면과 동일하지만 + {편집 지침}"입니다 .

저자들은 미세 조정 후 모델 편집의 성공률이 크게 향상되었으며, 이는 많은 데이터 세트 외부의 이미지 유형 편집으로 일반화될 수 있음을 발견했습니다.

하지만 저자는 다양한 편집 작업에서 일반적인 로라만을 사용할 경우 성공률이 여전히 충분히 높지 않으며, Remove, style 등 일부 작업의 편집 효과가 좋지 않다는 것을 발견했습니다.

저자들은 그 이유가 다양한 편집 작업마다 서로 다른 기능 처리 모드가 필요하고, 하나의 LoRA만으로 모든 편집 유형에 대한 처리 방법을 학습하기 어렵기 때문이라고 생각합니다. 따라서 여러 LoRA 전문가를 혼합하여 훈련하는 것이 편집 효과를 개선하는 데 중요할 수 있습니다.

따라서 저자는 LLM 분야에서 중요한 역할을 하는 MoE(혼합 전문가 모델) 방법을 차용하여 DiT 다중 모드 대규모 모델에 사용하고 LoRA를 설정하여 다양한 전문가를 훈련시켜 최종 모델을 얻었습니다.

MoE+LoRA 형태를 채택했음에도 불구하고, 모델의 학습 매개변수는 여전히 SOTA 모델보다 훨씬 적습니다(0.2B 대 17B).

표 1: 모델 매개변수 수량 및 성능 비교

표 2: 학습 데이터 양과 성능 비교

표 3: LoRA를 사용하여 미세 조정한 후 학습 무료에 비해 성능이 크게 향상되었으며 MoE 아키텍처를 채택한 후에도 성능이 지속적으로 상승.

이제 훈련이 완료되었으니 추론 중에 모델의 성능을 개선할 여지가 있습니까? 저자는 다양한 무작위 초기화 노이즈가 다양한 편집 결과를 생성한다는 사실을 발견했는데, 그 중 일부는 좋고 일부는 나쁩니다. 모델은 어떻게 사용자에게 가장 좋은 결과를 자동으로, 빠르게 생성할 수 있을까?

"다른 초기 노이즈에 대한 다른 편집 효과" 문제를 해결하기 위해 저자는 이미지 편집 작업에 적합한 초기 필터 추론 시간 스케일링 전략을 제안했습니다.

간단히 말해, FLUX나 SD3와 같이 가장 일반적으로 사용되는 DiT 아키텍처 모델은 대부분 흐름 매칭과 같은 기술을 사용하여 학습되며, 이를 통해 매우 적은 추론 단계로 고품질 결과(직선으로 걷는 것)를 빠르게 생성할 수 있습니다. 또한 많은 연구에서는 단일 단계 이미지 생성의 DiT 모델을 탐구했습니다. 따라서 저자는 처음 몇 단계를 사용하여 현재 초기 노이즈 생성의 효과가 편집 요구 사항을 충족하는지 확인하는 것이 좋다고 생각했습니다. 그렇지 않으면 다음 후보자는 제외됩니다.

초기 필터 추론 시간 스케일링

이 사건은 하늘이 밤처럼 보이도록 바뀌어야 한다는 것을 요구합니다. 일부 노이즈 후보는 처음 네 단계에서는 햇빛처럼 보입니다. 50단계의 추론을 거친 후에도 여전히 햇빛처럼 보이므로 편집자의 요구 사항을 충족하지 못합니다. 따라서 VLM은 처음 몇 단계에서 이러한 비준수 후보자를 제거하는 판단 기준으로 사용할 수 있으며, 추론 단계 수를 줄일 수 있습니다.

또한 VLM은 최고 중에서 최고를 선택할 수도 있습니다. 하늘을 밤으로 바꾸는 작업이 완료되더라도, 한 번 편집한 후에도 여전히 하늘에 별이 반짝이고 있어 밤 분위기에 더 잘 어울린다면, VLM에서도 이를 더 나은 결과로 간주하여 유지할 수 있습니다.

VIE-Score 평가는 추론 시간 스케일링 전략을 사용하면 결과가 크게 개선되었음을 보여줍니다.

저자는 추론 시간 스케일링 전략과 직접 난수 생성을 사용하는 효과를 테스트했으며, 인간의 선호도에 더 부합하는 GPT4o 기반 VIE 점수를 평가에 사용했습니다. 이 전략을 도입한 후 VIE 점수가 SeedEdit(3월 버전)과 비슷한 수준으로 크게 향상된 것을 확인할 수 있습니다.

양적 평가 외에도 ICEdit을 다른 모델과 질적으로 비교한 결과, 명령 따르기, 배경 보존 또는 문자 ID 보존 측면에서 편집 효과가 더 뛰어난 것으로 나타났습니다.

또한 저자가 제안한 방법은 외부 MoE-LoRA 모듈 통해 구현되므로 DiT 모델의 원래 생성 기능을 변경하지 않습니다. 따라서 강력한 일반화 기능을 갖추고 있으며 DiT의 고유한 기능을 사용하여 그림자, 반사, 글꼴 스타일 등을 자동으로 추가하는 등 보다 조화롭고 자연스러운 편집 효과를 생성할 수 있습니다.

DiT만의 독자적인 생성 능력으로 더욱 조화로운 편집 효과를 만들어낼 수 있습니다.

또한 이 프레임 특수 데이터 학습 후 일부 저수준 작업에 사용될 수 있는 새로운 이미지-투-이미지 프레임 로 볼 수도 있습니다. 저자는 추가적인 훈련 없이 이미지 조명 변경, 워터마크 제거, 복원 등과 같은 일부 특수 작업에 모델을 일반화하려고 시도했습니다.

이 프레임 다양한 다운스트림 작업을 완료할 수 프레임 로 볼 수 있습니다.

참고문헌:

https://river-zhang.github.io/ICEdit-gh-pages/

본 기사는 LRST가 편집하고 36Kr이 허가를 받아 게시한 위챗 공개 계정 "Xinzhiyuan" 에서 발췌한 것입니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트