Chúng tôi đã thử nghiệm các trình chỉnh sửa hình ảnh AI miễn phí tốt nhất—Đây là những gì bạn sẽ thích và ghét

Bài viết này được dịch máy
Xem bản gốc

Kỷ nguyên của việc làm chủ mạng điều khiển, vật lộn với mặt nạ inpainting và ghi nhớ các công thức kỹ thuật nhắc nhở bí ẩn đã chính thức kết thúc. Những quy trình làm việc phức tạp đòi hỏi phải hiểu các tham chiếu kiểu, LORA và quy trình chuyển đổi hình ảnh sang hình ảnh đã được thay thế bằng một điều cực kỳ đơn giản: nhập những gì bạn muốn bằng tiếng Anh đơn giản.

Việc hiểu được sự khác biệt cơ bản giữa trình tạo hình ảnh và trình chỉnh sửa hình ảnh là rất quan trọng khi các công cụ này hội tụ. Các trình tạo hình ảnh truyền thống như Flux 1 Dev hoặc Imagen của Google tạo ra hình ảnh từ hư không—biến lời nhắc văn bản thành điểm ảnh thông qua quá trình tổng hợp thuần túy.

Mặt khác, các trình chỉnh sửa hình ảnh như Flux Kontext và Nano Banana hoạt động theo cách khác, lấy hình ảnh hiện có và chỉnh sửa theo hướng dẫn trong khi vẫn giữ nguyên các yếu tố cốt lõi.

Ranh giới ngày càng mờ nhạt khi các mô hình có được khả năng kép, nhưng kiến ​​trúc cơ bản lại khác biệt đáng kể. Trình tạo tối ưu hóa cho sự tự do sáng tạo và chất lượng thẩm mỹ từ những khung vẽ trống, trong khi trình chỉnh sửa ưu tiên việc bảo tồn các yếu tố hiện có, các thay đổi cục bộ chính xác và duy trì tính nhất quán trong suốt quá trình chỉnh sửa.

ChatGPT đã khởi động cuộc cách mạng này với khả năng DALL-E tích hợp, mang công nghệ chỉnh sửa hình ảnh đến với cộng đồng AI đàm thoại. Việc triển khai rất đơn giản—chỉ cần mô tả các chỉnh sửa của bạn và theo dõi chúng diễn ra.

Tuy nhiên, hình ảnh đầu ra của ChatGPT lại thiên về phong cách hoạt hình, tạo ra những kết quả mang tính khái niệm hơn là sản phẩm hoàn thiện. Yếu tố chân thực vẫn còn khó nắm bắt, và những nhà sáng tạo nghiêm túc đã nhanh chóng chuyển sang hướng khác.

Sau đó, Google ngừng hỗ trợ Nano Banana—về mặt kỹ thuật là Gemini 2.5 Flash Image—và toàn bộ bối cảnh đã thay đổi. Khả năng đồng nhất ký tự của mô hình đã thiết lập những chuẩn mực mới, duy trì bản sắc chủ thể qua nhiều thế hệ với độ chính xác chưa từng có. Đột nhiên, tiêu chuẩn về chỉnh sửa ảnh "tốt" tăng vọt.

Kể từ đó, lĩnh vực AI đã đón nhận khá nhiều mô hình mới, mỗi mô hình đều có những điểm mạnh và điểm yếu riêng. Nếu bạn muốn biết mô hình nào phù hợp nhất với mình, hãy tiếp tục đọc. Dưới đây là bài so sánh, đánh giá và giải thích của chúng tôi về những điều bạn sẽ yêu thích và ghét ở các trình chỉnh sửa hình ảnh tốt nhất cho đến nay.

Reve Art: Con dao quân đội Thụy Sĩ biết suy nghĩ

Reve đã trải qua một cuộc lột xác hoàn toàn kể từ giai đoạn xem trước. Giao diện được đại tu phản ánh một sự thay đổi cơ bản trong cách tiếp cận—thay vì hoạt động như một trình tạo hoặc chỉnh sửa hình ảnh thông thường, Reve hoạt động như một trợ lý AI xuất sắc trong các tác vụ trực quan.

Tính năng nổi bật của mô hình này là khả năng duyệt web và kết hợp các yếu tố thực tế vào các thế hệ.

Ví dụ, khi được yêu cầu đưa logo Google vào một hình ảnh, sau đó thay thế bằng logo của Decrypt , Reve đã không ảo tưởng về một kết quả gần đúng. Mô hình đã tìm kiếm trên web, xác định đúng logo Decrypt , hiểu được bối cảnh bố cục và tích hợp nó một cách liền mạch vào hình ảnh hiện có. Không cần tải lên thủ công, không cần hình ảnh tham chiếu, không cần cầu nguyện với các vị thần AI.

Khả năng duyệt web này giải quyết một hạn chế cơ bản của các mô hình truyền thống vốn không thực sự duyệt web để tìm kiếm nội dung. Việc đào tạo trên mọi logo, cụm từ hoặc nhân vật công chúng sẽ đòi hỏi phải tiếp nhận toàn bộ dữ liệu internet - một điều bất khả thi. Reve đã khắc phục điều này bằng cách tìm kiếm thông tin cụ thể theo yêu cầu, đảm bảo độ chính xác mà không cần bộ dữ liệu đào tạo cồng kềnh.

Mô hình này cũng nổi trội về tính đa dạng nghệ thuật, tạo ra hình ảnh với nhiều phong cách khác nhau với độ chính xác cao hơn so với các đối thủ cạnh tranh. Trong khi các mô hình khác theo đuổi chủ nghĩa siêu thực, Reve tối đa hóa khả năng thể hiện sáng tạo. Tốc độ vẫn ấn tượng, và sự kết hợp giữa khả năng tạo ảnh và chỉnh sửa tạo cảm giác thống nhất thực sự chứ không phải bị bó buộc vào nhau.

Nano Banana: Vua của sự nhất quán với tính bảo thủ

Hình ảnh Flash Gemini 2.5 của Google—được biết đến rộng rãi với tên gọi Nano Banana theo biệt danh lan truyền trong cộng đồng—đã trở thành tiêu chuẩn vàng cho tính nhất quán của ký tự. Mô hình này thể hiện khả năng gần như kỳ lạ trong việc hiểu các đặc điểm của chủ thể và diễn giải chúng một cách chính xác trong nhiều bối cảnh và ngữ cảnh khác nhau.

Dành cho bất kỳ ai chỉnh sửa ảnh với các đặc điểm cụ thể, đây chính là mô hình lý tưởng. Chỉnh sửa AI truyền thống tạo ra hình ảnh từ đầu, khiến sự can thiệp của AI trở nên rõ ràng thông qua các biến dạng và sự không nhất quán tinh tế. Nano Banana giảm thiểu những dấu hiệu này, tạo ra các chỉnh sửa giữ nguyên vẹn chủ thể ban đầu.

Trọng tâm kiến ​​trúc của mô hình là duy trì bản sắc chủ thể, nghĩa là việc đặt cùng một nhân vật vào nhiều bối cảnh khác nhau, giới thiệu sản phẩm từ nhiều góc độ, hoặc đảm bảo tính nhất quán của tài sản thương hiệu trở nên vô cùng dễ dàng. Google tích hợp khả năng suy luận trực quan, cho phép mô hình hiểu không chỉ những gì cần tạo ra, mà còn lý do tại sao một số yếu tố nhất định cần được duy trì tính nhất quán.

Tuy nhiên, Nano Banana đi kèm với những hạn chế đáng kể. Việc kiểm duyệt rất gắt gao—ngay cả những meme đơn giản liên quan đến động vật hoạt hình trong xung đột cũng kích hoạt cảnh báo nội dung. Bộ lọc an toàn của Google tính các đầu ra bị chặn theo hạn ngạch người dùng, nghĩa là việc thử nghiệm sẽ nhanh chóng trở nên tốn kém. Mô hình này dường như từ chối các chỉnh sửa một cách ngẫu nhiên, đôi khi từ chối cả những yêu cầu vô hại không hề vi phạm chính sách nội dung.

Sự linh hoạt trong sáng tạo bị ảnh hưởng bởi những hạn chế này. Người dùng yêu cầu nhiều lần lặp lại hoặc các phiên tạo tác phẩm mở rộng sẽ nhanh chóng đạt đến giới hạn hạn ngạch, buộc phải nâng cấp lên gói đăng ký chuyên nghiệp (20 đô la) hoặc siêu cấp (250 đô la). Sự kết hợp giữa sản lượng hạn chế và sự kiểm duyệt gắt gao tạo ra một trải nghiệm khó chịu cho bất kỳ ai muốn vượt qua giới hạn sáng tạo.

Qwen Omni Flash: Bậc thầy đa nguyên tố

Qwen 3 Omni Flash của Alibaba tỏa sáng trong các tình huống phức tạp, nhiều yếu tố. Tải lên ảnh chủ thể, thêm tư thế tham chiếu và xem mô hình phân tích cả hai bối cảnh cùng lúc. Mặc dù các đặc điểm khuôn mặt có thể hơi lệch, nhưng mô hình vẫn đáp ứng các yêu cầu về bố cục mà các mô hình khác không đáp ứng được.

Đây là mô hình tốt nhất nếu dữ liệu đầu vào của bạn yêu cầu các thành phần từ các hình ảnh khác nhau

Các hạn chế về nội dung không nghiêm ngặt như Nano Banana. Mô hình này cho phép tự do sáng tạo hơn so với Google, đồng thời vẫn đảm bảo các nguyên tắc an toàn cơ bản. Việc phân bổ tín dụng cũng hào phóng hơn—thời gian chờ 12 giờ so với 24 giờ của Nano Banana đồng nghĩa với việc chu kỳ lặp lại nhanh hơn.

Tính nhất quán của nhân vật vẫn là điểm yếu. Nó rất tốt, đúng vậy, nhưng không nhất quán bằng Nano Banana. Mặc dù Qwen xử lý các cảnh phức tạp một cách đáng ngưỡng mộ, việc duy trì tính nhất quán của chủ thể qua nhiều thế hệ lại là một thách thức. Mô hình này đánh đổi độ trung thực tuyệt đối để lấy độ chính xác về bố cục—một sự đánh đổi đáng giá cho một số quy trình làm việc nhất định nhưng lại gây khó chịu cho những quy trình khác.

Các giải pháp thay thế tại địa phương: Quyền lực so với khả năng tiếp cận

Nếu bạn muốn đạt được quyền tự chủ và kiểm soát hoàn toàn cho các thế hệ của mình, thì giải pháp cục bộ là lựa chọn phù hợp. Tuy nhiên, hãy lưu ý: Bạn sẽ cần một số phần cứng khá mạnh nếu quyết định tự tay làm và lưu trữ các mô hình của riêng mình.

Qwen Image Edit là lựa chọn cục bộ thân thiện với người mới bắt đầu. Các chỉnh sửa tự nhiên, đáng tin cậy giúp nó lý tưởng cho quy trình làm việc nhiều hình ảnh và điều chỉnh ảnh tinh tế. Bản chất mã nguồn mở cho phép bạn kiểm soát hoàn toàn nội dung và quá trình xử lý, mặc dù các yêu cầu tính toán - VRAM và sức mạnh xử lý đáng kể - hạn chế khả năng truy cập.

Đứng thứ hai về chất lượng là Flux Kontext. Các nghệ sĩ khen ngợi chất lượng đầu ra của nó trong các tình huống động, đặc biệt là khi thay thế nền và chuyển đổi phong cách. Chạy trên card VRAM 6GB với lượng tử hóa mạnh mẽ khiến nó dễ tiếp cận đến bất ngờ, và nguồn tài nguyên cộng đồng phong phú cung cấp giải pháp cho hầu hết mọi quy trình làm việc có thể tưởng tượng được.

Đây chắc chắn sẽ là lựa chọn cục bộ, không kiểm duyệt tốt nhất và rẻ nhất cho những người đam mê. Nó cũng giúp dễ dàng tích hợp các quy trình làm việc phức tạp, nhờ đó người dùng có thể kiểm soát cực kỳ chi tiết các thay đổi và chỉnh sửa mà họ muốn thực hiện trên hình ảnh của mình.

Lợi thế cục bộ trở nên rõ ràng đối với nội dung NSFW hoặc quy trình làm việc nhạy cảm. Không hạn chế API, không bộ lọc nội dung, không hạn ngạch sử dụng—chỉ đơn thuần là khả năng xác định sức mạnh xử lý.

Mặc dù nó có thể không chính xác nhất về mặt tính nhất quán của chủ đề, nhưng một số kỹ thuật nhanh chóng và một vài lần lặp lại khác nhau có thể hữu ích. Nhưng nếu bạn quyết định sử dụng mô hình này cục bộ trong quy trình làm việc ComfyUI, thì bạn có thể đủ trình độ để hiểu biết về tất cả các plugin và tài nguyên có thể giúp các mô hình này mạnh mẽ như các mô hình tiên tiến do các ông lớn AI cung cấp.

Vì vậy, với LoRA được đào tạo tùy chỉnh, một nút ReActor để hoán đổi khuôn mặt và một số mạng điều khiển ở đây và ở đó, bạn có thể có một hình ảnh giống hệt như những gì bạn hình dung.

Kiểm tra các mô hình

Sau đây là một số so sánh thể hiện rõ hơn điểm mạnh và điểm yếu của các mô hình.

Chỉnh sửa nhiều phần tử:

Đầu vào trực quan:

Gợi ý: Người phụ nữ trong hình 2 đang hướng về phía máy ảnh, tạo dáng như người mẫu trong hình 1. Cô ấy đang ngồi trên ghế sofa. Hãy giữ nguyên vẹn mọi đường nét trên khuôn mặt của người phụ nữ.

Đầu ra:

Phân tích mô hình:

  • Reve: Tốt trong việc tích hợp các tài liệu tham khảo, đặc biệt khi nội dung cần được trích xuất từ ​​dữ liệu thực tế. Xử lý rất tốt các yêu cầu về bố cục. Tuy nhiên, nó không thể chuyển đổi tư thế từ đầu vào trực quan.
  • Nano Banana: Giữ vững bản sắc nhân vật, nhưng lại không kết hợp được nhiều yếu tố tham chiếu. Tư thế không được tôn trọng và kém nhất quán hơn Reve.
  • Qwen Omni Flash: Tốt nhất ở đây. Mô hình này xử lý việc pha trộn nhiều yếu tố và hiểu ngữ cảnh tốt nhất. Nó phân tích cả hình ảnh chính và hình ảnh tham chiếu để xác định tư thế, với độ chính xác cao hơn mức trung bình trong việc kết hợp các yếu tố đầu vào.

Người chiến thắng: Qwen Omni Flash — tốt nhất trong việc quản lý và pha trộn chính xác các hướng dẫn phức tạp, nhiều thành phần.

Tính nhất quán của nhân vật

Đầu vào trực quan:

Yêu cầu: Cho hai chủ thể tạo dáng cùng nhau

Đầu ra:

Phân tích mô hình:

  • Reve: Rất giỏi về bố cục, nhưng không phải lúc nào cũng giỏi nhất về tính nhất quán giữa khuôn mặt và bản sắc trong suốt quá trình chỉnh sửa.
  • Nano Banana: Tốt nhất ở đây. Đặt ra tiêu chuẩn cho bản sắc chủ thể qua nhiều thế hệ. Duy trì chi tiết nhất quán cho cả hai chủ thể, ngay cả trong các bối cảnh hoặc tư thế khác nhau.
  • Qwen Omni Flash: Tính nhất quán của nhân vật có thể không vững chắc như Nano Banana. Các thế hệ nhân vật đều không thể hiện được hình ảnh tham chiếu.

Người chiến thắng: Nano Banana — không có đối thủ trong việc duy trì danh tính chủ thể và các chi tiết trong toàn bộ cảnh quay.

Sáng tạo/phi thực tế:

Đầu vào trực quan:

Gợi ý: biến bức tranh này thành một tác phẩm hoành tráng của Van Gogh. Hãy để người đàn ông trầm tư và cầm một đồng bitcoin.

Đầu ra:

Phân tích mô hình:

  • Reve: Tốt nhất ở đây. Điều này có thể mang tính chủ quan hơn, nhưng theo chúng tôi, Reve nổi trội về tính đa dạng nghệ thuật và khả năng diễn giải sáng tạo. Công cụ này tập trung tối đa hóa khả năng thể hiện ở mọi phong cách. Nó cũng nhất quán nhất - nghĩa là hầu hết thời gian đều cho kết quả tốt.
  • Nano Banana: Hiệu quả trong việc chuyển đổi phong cách, nhưng có xu hướng an toàn hơn, áp dụng các bộ lọc nghiêm ngặt hơn và có thể không linh hoạt hoặc sáng tạo bằng Reve. Khuôn mặt về cơ bản là bản sao của hình ảnh thực tế thay vì là một hình ảnh nghệ thuật.
  • Qwen Omni Flash: Khả năng sáng tác tốt, nhưng tính sáng tạo và phong cách vẫn kém Reve. Về mặt chủ quan, sản phẩm không tốt bằng Reve, nhưng vẫn khá hơn một Bit so với sản phẩm của Nano Banana.

Người chiến thắng: Reve — sự lựa chọn tốt nhất cho những chuyển đổi mang tính sáng tạo, nghệ thuật hoặc phi nghĩa đen.

Các yếu tố bất thường (không có trong tập dữ liệu đào tạo của mô hình)

Đầu vào trực quan:

Yêu cầu: thay đổi logo Google thành logo Decrypt.co

Phân tích mô hình:

  • Reve: Tốt nhất ở đây. Sử dụng trình duyệt web để lấy logo thực tế, đảm bảo độ chính xác trong thế giới thực, thay vì ảo tưởng hoặc đoán từ dữ liệu đào tạo.
  • Nano Banana: Không có khả năng thu thập nội dung theo thời gian thực, do đó nó có thể thay thế một logo chung chung hoặc tương tự từ bộ dữ liệu đào tạo của mình.
  • Qwen Omni Flash: Tương tự như Nano Banana. Mô hình này không có chức năng tìm kiếm trực tiếp trên web; sẽ cố gắng ước lượng dựa trên kiến ​​thức từ tập dữ liệu.

Người chiến thắng: Reve — công cụ này đặc biệt phù hợp để chèn các yếu tố mới lạ bằng cách truy cập các tài liệu tham khảo thực tế theo yêu cầu.

Phán quyết: Phù hợp mô hình với quy trình làm việc

Reve phù hợp với các chuyên gia sáng tạo cần sự linh hoạt mà không cần quá nhiều kỹ thuật. Khả năng duyệt web khiến nó trở nên vô cùng hữu ích cho các công việc liên quan đến thương hiệu đòi hỏi logo chính xác hoặc tài liệu tham khảo hiện hành. Các đội ngũ tiếp thị, nhà thiết kế đồ họa và nhà sáng tạo nội dung coi trọng tốc độ và sự đa dạng sáng tạo hơn tính chân thực tuyệt đối sẽ thấy Reve là một công cụ không thể thiếu.

Nano Banana thuộc về những quy trình đòi hỏi sự nhất quán tuyệt đối. Các nhiếp ảnh gia sản phẩm cần duy trì tính nhất quán trong danh mục, các nhà thiết kế nhân vật cần tham chiếu ổn định xuyên suốt các cảnh, và các nhà phát triển xây dựng các ứng dụng hướng đến người dùng, nơi tính an toàn được đặt lên hàng đầu — những người dùng này sẽ chấp nhận những hạn chế để đạt được sự nhất quán.

Qwen Omni Flash phục vụ các studio xử lý các bố cục phức tạp, nhiều lớp. Khả năng xử lý nhiều yếu tố trong khi vẫn duy trì tốc độ tạo hình hợp lý của mô hình này khiến nó trở nên lý tưởng cho các họa sĩ ý tưởng, người sáng tạo kịch bản phân cảnh và bất kỳ ai xây dựng bối cảnh thay vì các chủ thể đơn lẻ.

Các giải pháp cục bộ như Flux Kontext và Qwen Image Edit thu hút người dùng chuyên nghiệp với các yêu cầu cụ thể , hoặc người dùng mong muốn thực hiện một số lượng lớn chỉnh sửa và lặp lại với ngân sách rất ít hoặc không mất gì cả. Các nghệ sĩ độc lập cần toàn quyền sáng tạo, những người muốn chỉnh sửa hình ảnh cho "mục đích nghiên cứu", và các nhà phát triển xây dựng các ứng dụng chuyên biệt - những người dùng này chấp nhận gánh nặng cơ sở hạ tầng để có được sự tự do tuyệt đối.

Một ứng cử viên sáng giá khác là Seedream v4 của Bytedance. Sản phẩm này khá cạnh tranh, và được một số người khen ngợi là "kẻ hủy diệt" Nano Banana. Tuy nhiên, không có tùy chọn dùng thử miễn phí, đó là lý do tại sao chúng tôi không đưa nó vào danh sách này.

Sự chuyển đổi từ phức tạp về mặt kỹ thuật sang đơn giản về mặt ngôn ngữ tự nhiên đã dân chủ hóa việc chỉnh sửa hình ảnh chuyên nghiệp. Các mô hình giờ đây cạnh tranh không chỉ dựa trên năng lực thô mà còn dựa trên sự chuyên môn hóa, mỗi mô hình đều tìm ra những ngách riêng mà chúng vượt trội. Những cuốn sách giáo khoa kỹ thuật rập khuôn có thể đã lỗi thời. Tương lai sẽ nói tiếng Anh một cách đơn giản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
58
Thêm vào Yêu thích
18
Bình luận