LoRA đạt được khả năng chỉnh sửa hình ảnh cấp độ GPT-4o và mô hình mới của Đại học Chiết Giang và Harvard xếp thứ hai trong danh sách Hugging Face

05-07

Bài viết này được dịch máy

Xem bản gốc

【Dẫn nhập】Với sự xuất hiện của các mô hình thương mại như Gemini, GPT-4o, nhiệm vụ chỉnh sửa hình ảnh dựa trên văn bản lại một lần nữa được đẩy lên đỉnh cao. Việc thu thập dữ liệu chỉnh sửa chất lượng cao hơn để đào tạo và đào tạo các mô hình có số lượng tham số lớn hơn dường như là con đường duy nhất để cải thiện hiệu suất chỉnh sửa hình ảnh. Tuy nhiên, nhóm nghiên cứu của Đại học Chiết Giang và Harvard lại đi ngược lại, chỉ sử dụng 0,1% lượng dữ liệu (thu thập từ các tập dữ liệu công khai) và 1% tham số đào tạo, đã đạt được chất lượng chỉnh sửa hình ảnh với chi phí cực thấp, thậm chí vượt trội hơn các mô hình thương mại!

Nhiệm vụ chỉnh sửa hình ảnh dựa trên lệnh văn bản luôn là một điểm nóng trong lĩnh vực sinh và chỉnh sửa hình ảnh, từ Prompt2prompt đến InstructPix2Pix, từ EmuEdit cho đến GPT4o mới nhất, đều không ngừng nâng cao trình độ chỉnh sửa hình ảnh AI.

[Phần còn lại của văn bản được dịch tương tự, giữ nguyên các thẻ <> và các liên kết]

>trong quá trình khử nhiễu, các lời nhắđược tiếp nhlà các lời nhắn ngữ cảnh hợp với chỉ thị biên tập,ập chẳn bnhành kép, bao hai hình của cùmộtngàđặt cạnh nhau... cùng một ngời đng, nhưng {để ngời đó ômóngổ}", đồng thời trong quá trình khử nhiễu, liênttụcm tiêm đặc của hình ảgnhốc vàoo hình ảnh nhiễun bên trái của hình kép, côphía không bên phthực hiện thệnao tác, cuối cùng hsinh ra, phía bên trái sẽ được táio lại hình ảnh gphía bên phải ssinh ra kết đã được biên tập theo lờinh nhữnh tức là ngờioi đó ang mông.

Một khuôn khổ khác hukhông cần đào tạo là dựa trên Trinpainting DiT (bổ sung hình ảnh, như FLUX.1 Fill), khuổnày rất đơn giản, chỉ cần đặhtình cần biên tập ở bên trái của hình kép,, bên phải được đặtt hoàn là khu vực bổ sung, lời nhắn đầu vào v�tiếp tlà lời nhắn ngữ cảnh hợp với chỉ thị biên tập, có thấy đã xuất ra hhình ảnh đã được biên tập.

Nói chục hai kkhkhổ là để mô hình có thể tiếp nhhìnhham khảồng thênự trên chỉ ngữcảặc dù đã thể hiện hiệu ứng biên tập xuất sắc, nhưng từ hình ảnh có thể thấy ID của ngời đàn ang ômóng vvẫn có một sốá thayy, phụ nữ cầm hộp đồ hộp cũng đã ththay đổi tư thế, tỷ thành phẩm vẫn chưa cao.

p>>Human: phchế không cần đào tạo vẫn có hiệu suất hạn chế và tỷ l�thnhó được cải thiện thông qua việc điều chỉnh sau đ.

Tác giả dựtraênnh đơn giản của kkhkhinpainting, sử dụng tập dliệu biu ch�sửa công cộng từ internet (MagicBr ush 9k+OmniEdit 40k) để điều chỉnh LoRA, chiến lượt điều chỉnh rất đơn giản, chỉ cần thay đổi chỉ thị biên tập trong tập dữ thành một hình thức chỉ thị ngữ cảnh thống nhất, tức là "Một hình ảnh kép, chứìnhh ạnhh của cùng một cảcnh hìnhên cảnh giống hệt bên trái, nhưng + {chỉ thị biên tập}".

Tác giả nhận thấy sau khi điều chỉnh, t�ỷ lệ thành công của mô hình trong biên tập đã tăng đáng kể và có thể mở rộng sang nhiều loại hình ảnh ngoài tập dữ liệu.

(Phần còn lại được dịch tương tự)tr 请问这个翻译有什吗 �？我希望你能仔细检查一下翻译的确看语法错误，，是否需要调整。

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan