Chuyên giải quyết tình trạng "sụp đổ khuôn mặt" của ảnh thô AI, nhanh hơn GPT gấp 8 lần, phiên bản mới Flux.1 làm mới SOTA về mọi mặt

avatar
36kr
05-30
Bài viết này được dịch máy
Xem bản gốc

[Giới thiệu] Flux.1 Kontext là mô hình thế hệ mới tích hợp chỉnh sửa hình ảnh văn bản tức thời và tạo văn bản thành hình ảnh. Nó hỗ trợ lời nhắc bằng văn bản và hình ảnh, có tính nhất quán về nhân vật và nhanh hơn GPT-Image-1 gấp 8 lần.

Khi sử dụng AI để tạo và chỉnh sửa hình ảnh, bạn muốn tạo ra một mẫu câu chuyện hoàn chỉnh, nhưng nhân vật chính lại thay đổi khuôn mặt nhanh hơn cả việc lật từng trang sách. Bạn nên làm gì?

Đừng lo lắng, mô hình hình ảnh mới Flux.1 Kontext đã có mặt! Nó hỗ trợ tạo hình ảnh theo ngữ cảnh, có thể sử dụng cả văn bản và hình ảnh để nhắc nhở và có thể rút và sửa đổi các khái niệm trực quan một cách liền mạch để tạo ra hình ảnh mới và mạch lạc.

Địa chỉ bài báo: Flux

Flux.1 Kontext là sê-ri các mô hình khớp dòng tạo ra và chỉnh sửa hình ảnh. Không giống như các mô hình chuyển văn bản thành hình ảnh hiện có, sê-ri Flux .1 Kontext hỗ trợ tạo hình ảnh theo ngữ cảnh.

Tạo và chỉnh sửa hình ảnh và văn bản nhất quán và phù hợp với ngữ cảnh

Hình ảnh của bạn, lời nói của bạn, thế giới của bạn

Flux.1 Kontext đánh dấu mở rộng quan trọng của mô hình chuyển văn bản thành hình ảnh cổ điển bằng cách kết hợp chỉnh sửa văn bản thành hình ảnh tức thời với tạo văn bản thành hình ảnh.

Là một mô hình luồng đa phương thức, nó kết hợp tính nhất quán của nhân vật, khả năng hiểu ngữ cảnh và khả năng chỉnh sửa cục bộ hiện đại, đồng thời có khả năng tổng hợp văn bản thành hình ảnh mạnh mẽ.

Chỉnh sửa hình ảnh lặp đi lặp lại dựa trên lệnh. Bắt đầu từ ảnh tham khảo(a), mô hình áp dụng tuần tự ba lệnh chỉnh sửa ngôn ngữ tự nhiên—đầu tiên là loại bỏ các yếu tố che khuất (b), sau đó di chuyển người đến Freiburg (c) và cuối cùng là chuyển đổi cảnh thành một ngày tuyết rơi (d).

Ngoại hình, tư thế, trang phục và phong cách chụp ảnh tổng thể của nhân vật vẫn được giữ nguyên trong suốt quá trình chỉnh sửa.

Flux.1 Kontext có những ưu điểm sau:

Khả năng hợp nhất: Một mô hình hỗ trợ cả chức năng chỉnh sửa cục bộ truyền thống và nhiệm vụ tạo hình ảnh dựa trên ngữ cảnh.

Tính nhất quán nhân vật : Flux.1 Kontext nổi trội trong việc bảo toàn nhân vật, giữ cho nhân vật nhất quán ngay cả qua nhiều vòng chỉnh sửa lặp đi lặp lại.

Tốc độ tương tác : Flux.1 Kontext chạy nhanh, dù là chuyển đổi văn bản sang hình ảnh hay hình ảnh sang hình ảnh, thời gian tạo hình ảnh chỉ mất 3 đến 5 giây ở độ phân giải 1024×1024.

Hoạt động lặp lại : Tốc độ suy luận nhanh và tính nhất quán cao cho phép người dùng chỉnh sửa hình ảnh lần liên tiếp mà hầu như không có hiện tượng trôi hình ảnh đáng chú ý.

Tuyến đường công nghệ Flux.1 Kontext

Flux.1 là bộ biến đổi dòng chảy được chỉnh lưu được đào tạo trong không gian tiềm ẩn của bộ mã hóa hình ảnh tự động.

Một bộ mã hóa tự động tích chập với mục tiêu đối nghịch đã được đào tạo từ đầu. Bằng cách tăng lượng tính toán đào tạo và áp dụng 16 kênh tiềm năng, nó vượt trội hơn các mô hình liên quan về khả năng tái tạo hình ảnh.

Cấu trúc của Flux.1 là sự kết hợp giữa mô-đun luồng đôi luồng đơn.

Mô-Đun-đun hai luồng sử dụng tỷ trọng khác nhau cho mã thông báo hình ảnh và văn bản, và thực hiện hợp nhất thông tin bằng cách nối hai mã thông báo và thực hiện cơ chế chú ý.

Sau khi chuỗi được xử lý bởi mô-đun-đun hai luồng, các mã thông báo văn bản sẽ bị loại bỏ và chỉ giữ lại các mã thông báo hình ảnh, đồng thời 38 mô-đun-đun một luồng sẽ được áp dụng cho chúng.

Sử dụng Mã hóa vị trí quay 3D phân tích nhân tử (3D RoPE) , trong đó mỗi mã thông báo tiềm ẩn được định vị theo tọa độ không gian thời gian của nó (t, h, w).

Mục tiêu của đội ngũ nghiên cứu là đào tạo một mô hình có thể tạo ra hình ảnh khi có cả lời nhắc văn bản và hình ảnh tham khảo .

Chính thức hơn, chúng ta muốn tìm hiểu sơ bộ về phân phối xác suất có điều kiện có thể tạo ra hình ảnh mục tiêu (x) khi có lời nhắc văn bản (c) và hình ảnh tham khảo(y) .

Không giống như cách tạo văn bản thành hình ảnh truyền thống, nhiệm vụ này yêu cầu mô hình phải tìm hiểu mối quan hệ giữa các hình ảnh - được hướng dẫn bởi hướng dẫn văn bản c - để cùng một mạng có thể:

1. Thực hiện chỉnh sửa dựa trên hình ảnh khi có hình ảnh tham khảo y≠∅;

2. Khi y=∅, tạo một hình ảnh hoàn toàn mới từ đầu.

Xây dựng chuỗi mã thông báo

Đầu tiên, hình ảnh được mã hóa thành các mã thông báo tiềm ẩn bằng bộ mã hóa tự động Flux đóng băng . Mã thông báo y của hình ảnh ngữ cảnh được thêm vào Mã thông báo x của hình ảnh mục tiêu và đưa vào mô hình như một phần của luồng đầu vào trực quan.

Phương pháp "nối chuỗi" đơn giản này có những ưu điểm sau:

1. Hỗ trợ nhiều độ phân giải đầu vào/đầu ra và tỷ lệ khung hình khác nhau;

2. Có thể mở rộng tự nhiên thành nhiều hình ảnh ngữ cảnh y₁, y₂, …, yₙ.

Thông tin vị trí được mã hóa thông qua mã hóa vị trí quay 3D (3D RoPE).

Tất cả các mã thông báo trong đó hình ảnh ngữ cảnh đều được gán một độ lệch hằng số như một bước thời gian ảo, giúp phân biệt rõ ràng khối ngữ cảnh và khối mục tiêu trong chiều thời gian trong khi vẫn giữ nguyên cấu trúc không gian của chúng.

.

Vị trí mã thông báo của ảnh mục tiêu là: uₓ = (0, h, w); vị trí mã thông báo của hình ảnh ngữ cảnh thứ i là: uᵧᵢ = (i, h, w) , trong đó i = 1, …, N.

Dòng chảy chỉnh lưu Mục tiêu

Hàm mất mát khớp với luồng hiệu chỉnh sau đây được sử dụng để đào tạo:

TRONG ĐÓ:

ε là nhiễu được lấy mẫu từ phân phối chuẩn Gaussian N(0,1);

zₜ là phép nội suy tuyến tính giữa x và ε, tức là

vθ là mạng dự đoán vận tốc mà các nhà nghiên cứu muốn đào tạo;

p(t;μ,σ=1.0) là chiến lược lấy mẫu theo thời gian của phân phối logit chuẩn, trong đó μ được điều chỉnh theo độ phân giải của dữ liệu đào tạo.

Trong trường hợp tạo hình ảnh từ văn bản thuần túy (y=∅), tất cả các mã thông báo của y sẽ bị bỏ qua để duy trì khả năng tạo văn bản thành hình ảnh của mô hình.

Lấy mẫu chưng cất khuếch tán ngược

Việc lấy mẫu mô hình khớp dòng chảy thu được thường đòi hỏi phải giải phương trình vi phân thường hoặc phương trình vi phân ngẫu nhiên và quá trình này thường yêu cầu 50 đến lần đánh giá mạng có hướng dẫn.

Mặc dù cách tiếp cận này có thể tạo ra các mẫu chất lượng cao cho các mô hình được đào tạo tốt, nhưng nó cũng có một số vấn đề tiềm ẩn.

Đầu tiên, quy trình lấy mẫu nhiều bước diễn ra chậm, khiến việc triển khai trên diện rộng tốn kém và không có lợi cho việc đạt được các ứng dụng tương tác có độ trễ thấp.

Thứ hai, quá trình khởi động đôi khi có thể tạo ra các hiện tượng thị giác bất thường, chẳng hạn như hình ảnh quá bão hòa.

Flux.1 Kontext áp dụng phương pháp chưng cất khuếch tán đối nghịch không gian tiềm ẩn để giải quyết những thách thức trên. Phương pháp này làm giảm đáng kể số bước lấy mẫu cần thiết đồng thời cải thiện chất lượng hình ảnh thông qua quá trình đào tạo đối nghịch.

Chi tiết thực hiện

Bắt đầu từ điểm kiểm tra mô hình văn bản thành hình ảnh thuần túy, mô hình được tinh chỉnh chung cho cả nhiệm vụ hình ảnh thành hình ảnh và văn bản thành hình ảnh.

Mặc dù phương pháp này hỗ trợ nhiều hình ảnh đầu vào, nhưng hiện tại chúng tôi tập trung vào việc sử dụng một hình ảnh duy nhất làm đầu vào có điều kiện.

Flux.1 Kontext[pro] đầu tiên được đào tạo với mục tiêu luồng và sau đó với LADD. Sử dụng các kỹ thuật do Meng và cộng sự đề xuất, chúng tôi áp dụng phương pháp có hướng dẫn vào mô hình Transformer khuếch tán 12 tỷ tham số, tạo ra Flux.1 Kontext[dev].

Để cải thiện hiệu suất của Flux.1 Kontext [dev] trong nhiệm vụ chỉnh sửa, chúng tôi tập trung vào việc đào tạo hình ảnh để tạo hình ảnh và không đào tạo văn bản thuần túy để tạo hình ảnh.

Để ngăn chặn việc tạo ra hình ảnh thân mật không được đồng thuận (NCII) và nội dung khai thác tình dục trẻ em (CSEM), một cơ chế đào tạo an toàn đã được đưa ra, bao gồm sàng lọc dựa trên phân loại và đào tạo đối kháng.

Các nhà nghiên cứu đã sử dụng FSDP2 và kết hợp nó với quá trình đào tạo độ chính xác hỗn hợp: tất cả các hoạt động tập hợp sử dụng bfloat16, trong khi các hoạt động giảm phân tán độ dốc sử dụng float32 để cải thiện tính ổn định số.

Cơ chế điểm kiểm tra được kích hoạt có chọn lọc cũng được sử dụng để giảm mức sử dụng bộ nhớ video tối đa.

Để cải thiện thông lượng, Flash Attention được sử dụng và tối ưu hóa biên dịch cục bộ được thực hiện trên mỗi mô-đun Transformer.

Trên đây là hiệu ứng của sản phẩm trong nhiếp ảnh. (a) Hình ảnh đầu vào hiển thị trang phục hoàn chỉnh. (b) Chiếc váy rút được đặt trên bối cảnh trắng theo phong cách chụp ảnh sản phẩm. (c) Cận cảnh vải của váy, làm nổi bật kết cấu và chi tiết hoa văn của vải.

Đánh giá và phân tích kết quả

Đầu tiên, chúng tôi xin giới thiệu KontextBench, một bộ chuẩn mực hoàn toàn mới bao gồm các thử thách chỉnh sửa hình ảnh thực tế được thu thập từ cộng đồng người dùng.

Sau đó, chúng tôi so sánh một cách có hệ thống Flux.1 Kontext với phương pháp chuyển văn bản thành hình ảnh và chuyển hình ảnh thành hình ảnh hiện đại, chứng minh hiệu suất vượt trội của nó trong nhiều nhiệm vụ chỉnh sửa khác nhau.

Tiêu chuẩn cộng tác cộng đồng thực tế cho nhiệm vụ theo ngữ cảnh

Các tiêu chuẩn hiện tại cho các mô hình chỉnh sửa hình ảnh thường có hạn chế trong việc phản ánh cách sử dụng thực tế.

Nội dung của KontextBench xuất phát từ những tình huống thực tế của người dùng. Bộ chuẩn mực này bao gồm 1.026 cặp hình ảnh và từ gợi ý độc đáo được lấy từ 108 hình ảnh cơ sở, bao gồm ảnh cá nhân, tác phẩm nghệ thuật được cấp phép CC, hình ảnh thuộc phạm vi công cộng và nội dung do AI tạo ra.

KontextBench bao gồm năm nhiệm vụ cốt lõi: chỉnh sửa hướng dẫn cục bộ (416 ví dụ), chỉnh sửa hướng dẫn toàn cục (262), chỉnh sửa văn bản (92), tham khảo kiểu (63) và tham khảo nhân vật (193).

Độ trễ suy luận trung bình cho mỗi mô hình khi tạo hình ảnh có kích thước 1024 × 1024. Flux.1 Kontext cho thấy hiệu suất tốc độ cạnh tranh trong cả nhiệm vụ chuyển văn bản thành hình ảnh và chuyển hình ảnh thành hình ảnh.

So sánh với phương pháp hiện đại

Flux.1 Kontext được thiết kế để hỗ trợ cả nhiệm vụ chuyển văn bản thành hình ảnh (T2I) và chuyển hình ảnh thành hình ảnh (I2I).

Phương pháp này được đánh giá dựa trên các mô hình thương mại và mã nguồn mở mạnh nhất trong lĩnh vực này, lần lượt thử nghiệm phiên bản [pro] và [dev] của Flux.1 Kontext. Phiên bản [dev] tập trung vào nhiệm vụ tạo hình ảnh.

Ngoài ra, Flux.1 Kontext[max] đã được giới thiệu, sử dụng tài nguyên điện toán cao hơn để đạt được hiệu ứng tạo ra mạnh hơn.

Kết quả chuyển đổi văn bản thành hình ảnh (T2I)

Tiêu chuẩn đánh giá T2I hiện tại chủ yếu dựa trên sở thích của người dùng, thường hỏi: "Bạn thích hình ảnh nào hơn?"

Chúng tôi nhận thấy rằng tiêu chí đánh giá rộng này thường ưu tiên những hình ảnh có "tính thẩm mỹ AI" điển hình, chẳng hạn như màu sắc quá sáng, chủ thể nổi bật ở giữa, bối cảnh mờ rõ (độ sâu trường ảnh) và các phong cách tương tự.

Các nhà nghiên cứu gọi hiện tượng này là "nướng".

Để đánh giá toàn diện hơn chất lượng tạo ra và hiểu rõ hơn tác động của sở thích người dùng, các nhà nghiên cứu đã chia nhiệm vụ T2I thành năm chiều để phân tích:

1. Theo dõi nhanh chóng

2. Thẩm mỹ (Bạn nghĩ bức ảnh nào đẹp hơn)

3. Chủ nghĩa hiện thực (Hình ảnh nào trông giống ảnh thật hơn)

4. Độ chính xác của kiểu chữ

5. Tốc độ suy luận

Các nhà nghiên cứu đánh giá phương pháp này trên 1.000 câu hỏi kiểm tra đa dạng được rút ra từ các chuẩn mực học thuật cũng như các truy vấn thực tế của người dùng. Các nhà nghiên cứu gọi bộ thử nghiệm này là Internal-T2I-Bench.

Kết quả cho thấy Flux.1 Kontext hoạt động rất tốt ở mọi chiều.

Mặc dù các mô hình khác hoạt động tốt hơn ở một số chỉ báo riêng lẻ nhưng điều này thường làm giảm hiệu suất ở các khía cạnh khác.

Các nhà nghiên cứu cũng thấy rằng hiệu suất dần được cải thiện từ FLUX1.1[pro] lên Flux.1 Kontext[pro] rồi lên Flux.1 Kontext[max], xác minh tính hiệu quả của các lần lặp lại đào tạo của các nhà nghiên cứu.

Kết quả từ hình ảnh đến hình ảnh (I2I)

Trong đánh giá I2I, các nhà nghiên cứu đánh giá hiệu suất của mô hình trên nhiều nhiệm vụ chỉnh sửa, bao gồm:

  • Chất lượng hình ảnh
  • Khả năng chỉnh sửa cục bộ
  • Giữ lại nhân vật(C-Ref)
  • Chuyển đổi phong cách (S-Ref)
  • Chỉnh sửa văn bản
  • Hiệu quả tính toán

Theo kết quả đánh giá thủ công, phiên bản [max] và [pro] của Flux.1 Kontext hoạt động tốt nhất trong việc chỉnh sửa cục bộ, chỉnh sửa văn bản và giữ nguyên nhân vật.

Để định lượng hiệu suất bảo toàn nhân vật(C-Ref), các nhà nghiên cứu đã sử dụng AuraFace rút các đặc điểm nhúng trên khuôn mặt trước và sau khi chỉnh sửa và so sánh chúng.

Kết quả phù hợp với đánh giá của con người: Flux.1 Kontext vượt trội hơn các mô hình khác trong việc bảo tồn các đặc điểm của con người.

Trong nhiệm vụ chuyển đổi kiểu và chỉnh sửa toàn cục, Flux.1 Kontext lần gpt-image-1 và Gen-4References.

Cuối cùng, xét về tốc độ suy luận, mô hình của các nhà nghiên cứu cũng thể hiện độ trễ phản hồi tối ưu.

Kịch bản ứng dụng chuyên dụng Flux.1 Kontext

Flux.1 Kontext không chỉ hỗ trợ nhiệm vụ tạo hình ảnh chung mà còn có thể được áp dụng cho nhiều tình huống cụ thể.

Một trong đó là Style Tham khảo(S-Ref), một tính năng phổ biến của Midjourney có thể chuyển phong cách của hình ảnh tham khảo sang hình ảnh mục tiêu trong khi vẫn giữ nguyên nội dung ngữ nghĩa.

Tham chiếu phong cách, nghĩa là, khi được cung cấp một hình ảnh đầu vào, mô hình sẽ rút phong cách nghệ thuật của hình ảnh đó và tạo ra nhiều cảnh mới đa dạng trong khi vẫn duy trì các đặc điểm phong cách ban đầu.

Ngoài ra, mô hình có thể nhận dạng và phản hồi các tín hiệu thị giác trong hình ảnh, chẳng hạn như hình bầu dục màu đỏ hoặc hình dạng hình học, có thể hướng dẫn mô hình chỉnh sửa các khu vực cụ thể.

Về mặt chỉnh sửa văn bản, Flux.1 Kontext hỗ trợ tinh chỉnh văn bản trong hình ảnh, bao gồm sửa lỗi chính tả, điều chỉnh kiểu phông chữ và duy trì tính nhất quán của nội dung hình ảnh xung quanh trong quá trình này.

Tóm tắt

Flux.1 Kontext đạt được hiệu suất SOTA hiện tại và giải quyết hiệu quả các vấn đề chính như trôi nhân vật, tốc độ suy luận chậm và chất lượng đầu ra thấp trong nhiều vòng chỉnh sửa.

Những đóng góp chính của Flux.1 Kontext bao gồm:

  • Một kiến ​​trúc thống nhất có khả năng xử lý nhiều nhiệm vụ hình ảnh cùng lúc
  • Duy trì tính nhất quán tuyệt vời nhân vật qua nhiều vòng chỉnh sửa
  • Tốc độ phản hồi tương tác
  • Đã phát hành KontextBench: một chuẩn mực thực tế chứa 1026 cặp từ gợi ý hình ảnh

Kết quả đánh giá mở rộng chứng minh rằng Flux.1 Kontext có hiệu suất tương đương với các hệ thống thương mại và hỗ trợ quy trình làm việc sáng tạo nhanh chóng, nhiều vòng.

Phiên bản Flux.1 Kontext hiện tại vẫn còn một số hạn chế trong ứng dụng thực tế. Ví dụ, quá nhiều vòng chỉnh sửa có thể gây ra hiện tượng nhiễu hình ảnh, làm giảm chất lượng hình ảnh.

Nhưng ví dụ về các chỉnh sửa lặp lại sử dụng các mô hình khác nhau dựa trên cùng một hình ảnh bắt đầu và cùng một lời nhắc chỉnh sửa (trên cùng: Flux.1 Kontext, giữa: gpt-image-1, dưới cùng: Runway Gen4). Flux.1 Kontext vượt trội hơn các mô hình khác về khả năng bảo tồn đặc điểm khuôn mặt.

Việc phát hành Flux.1 Kontext và KontextBench cung cấp nền tảng vững chắc và khuôn khổ đánh giá hoàn chỉnh cho nghiên cứu thống nhất về tạo và chỉnh sửa hình ảnh, đồng thời kỳ vọng sẽ thúc đẩy sự tiến bộ liên tục trong lĩnh vực này.

Tham khảo:

https://bfl.ai/announcements/ Flux-1-kontext

https://cdn.sanity.io/files/gsvmb6gz/production/880b072208997108f87e5d2729d8a8be481310b5.pdf

Bài viết này trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: Biên tập viên: Dinghui, 36Kr được phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận