Gặp gỡ Flux 1.1 Pro: Trình tạo hình ảnh AI tốt nhất mà bạn không thể chạy

avatar
Decrypt
10-08
Bài viết này được dịch máy
Xem bản gốc

Black Forest Labs, studio đứng sau Fluxfamily của các trình tạo hình ảnh AI, đã công bố tuần trước về việc phát hành Flux 1.1 [Pro]. Sự kiện này diễn ra chỉ hai tháng sau khi phát hành dòng sản phẩm gốc của họ, bao gồm Flux 1 Pro (một mô hình nguồn đóng với các khả năng hàng đầu trong ngành), Flux 1 Dev (một mô hình nguồn mở, phi thương mại) và Flux Schnell (một mô hình nguồn mở hoàn toàn).

Các mô hình Flux đánh dấu bước nhảy vọt lớn trong công nghệ AI tạo sinh với khả năng tạo văn bản, tuân thủ nhanh chóng và chất lượng hình ảnh tổng thể. Ngay cả các mô hình nhỏ hơn, Flux Dev và Flux Schnell, cũng tạo ra kết quả ngang bằng với các thế hệ từ MidJourney và tốt hơn nhiều so với kết quả do SD3, sự tiến hóa được mong đợi từ lâu của Stability so với SDXL, hóa ra lại có phần kém ấn tượng .

Mô hình mới đã tạo được dấu ấn, đảm bảo điểm Elo cao nhất trong lĩnh vực hình ảnh Phân tích nhân tạo —một nền tảng chuẩn mực hàng đầu cho các mô hình AI. Nó đã vượt trội hơn mọi mô hình văn bản thành hình ảnh khác trên thị trường trong khi vẫn nhanh gần bằng mô hình nhỏ nhất của nó.

Biểu đồ bên dưới hiển thị điểm Elo (chất lượng hình ảnh) trên trục Y và tốc độ tạo trên trục X. Những người đam mê MidJourney có thể nhận thấy rằng mô hình của họ không được thể hiện—nó chậm đến mức không thể hiện được. Tuy nhiên, Điểm Elo của nó nằm ở đâu đó khoảng 1100 điểm, ngay dưới Ideogram V2.

Flux Pro mới nổi bật về mặt giá cả, với Flux1.1 Pro có giá 0,04 đô la cho mỗi hình ảnh—thấp hơn nhiều mẫu khác trên thị trường, bao gồm cả Flux1 Pro ban đầu. Cấu trúc giá này khiến nó trở thành đối thủ cạnh tranh mạnh mẽ so với các dịch vụ trả phí khác như MidJourney và Ideogram, có giá 96 đô la84 đô la một năm cho mỗi dịch vụ. Các tùy chọn MidJourney và Ideogram cũng chậm hơn và có chi phí cao hơn cho mỗi Token.

Đáng buồn thay, Flux1.1 Pro không thể chạy cục bộ. Không giống như các đối tác mã nguồn mở kém mạnh mẽ hơn, chẳng hạn như các mô hình FLUX1 [Dev] và FLUX1 [Schnell], phiên bản pro mới này là một mô hình mã nguồn đóng, hạn chế người dùng truy cập thông qua các nền tảng như Together AI , Replicate , Fal AIFreepik . Nó không thể được tinh chỉnh hoặc cá nhân hóa.

Đối với những ai đang cân nhắc thử mô hình này, một số nền tảng này cung cấp một vài khoản tín dụng cho các thế hệ miễn phí, nhưng khi chúng hết, dịch vụ tốt nhất theo tiêu chí của chúng tôi là Freepik. Đó là vì quy trình làm việc Mystic của nó cải thiện đáng kể các thế hệ với độ chi tiết cao hơn và tính thẩm mỹ tốt hơn.

Không có thông báo nào liên quan đến phiên bản mã nguồn mở 1.1 của các mô hình FLUX1 [Dev] hoặc FLUX1 [Schnell], nhưng rõ ràng là Black Forest Labs đang tập trung nỗ lực vào các mô hình tuyệt vời dành cho những người sáng tạo hình ảnh và video .

Chúng tôi đã thử mô hình Flux mới và kết quả rất khả quan. Đây không phải là bước nhảy vọt thế hệ—giống như việc chuyển từ SDXL sang Flux—nhưng chắc chắn là một bản nâng cấp được chào đón.

Nhìn chung, nó rất thực tế, có khả năng tạo văn bản tuyệt vời và rất sáng tạo trong các tác vụ và phong cách nghệ thuật. Đây là một mô hình tốt, đa năng, cung cấp khả năng tạo nhanh mà không ảnh hưởng đến chất lượng.

Yêu cầu: "Ảnh polaroid với bộ lọc VSCO, năm 1990, phụ nữ, ban đêm, ảnh chụp bằng đèn flash, tóc vàng, khuôn mặt trẻ, bóng đẹp, cây nhiệt đới, bên trong một căn hộ, máy ảnh DSLR, đèn flash của máy ảnh, cầm một tấm biển viết tay trên một cuốn sổ ghi dòng chữ 'Xác minh để giải mã ngày 7 tháng 10 năm 2024'. Người phụ nữ đang làm dấu hiệu hòa bình bằng tay còn lại."

Mô hình này rất tuyệt vời trong việc tạo ra hình ảnh chân thực, cải thiện giao diện được chỉnh sửa bằng airbrush của các mô hình Flux ban đầu. Mặc dù không hoàn hảo, nhưng kết quả rất thuyết phục, đặc biệt là khi được nhắc nhở đúng cách. Thoạt nhìn, những hình ảnh này—cả hai đều được tạo bằng Flux 1.1 Pro—có thể được coi là thật mà không cần phải soi mói các chi tiết nhỏ.

Chữ viết phù hợp với lời nhắc và việc dựng hình thủ công đã được cải thiện, mặc dù chưa hoàn hảo. Điều quan trọng cần lưu ý là đây không phải là các mẫu được chọn thủ công mà là hai thế hệ đầu tiên. Khi làm việc với AI tạo sinh, kết quả tốt nhất thường đến sau nhiều thế hệ và chỉnh sửa.

Ánh sáng phù hợp với đèn flash của máy ảnh, tập trung vào chủ thể mà không chiếu sáng toàn bộ căn phòng. Bộ lọc VSCO tăng cường tính chân thực và khả năng bám dính nhanh chóng tuyệt vời.

So sánh Flux 1.1 với Flux 1 cho thấy các thế hệ khá giống nhau về mặt hiện thực khi nhìn thoáng qua. Tuy nhiên, sử dụng cùng một lời nhắc, mô hình mới tạo ra tư thế tự nhiên hơn và cơ thể nhất quán hơn. Ví dụ, Flux 1 tạo ra thứ có vẻ như là một chân bổ sung, điều mà Flux 1.1 đã tránh được. Sự cải tiến này liên quan nhiều hơn đến độ chính xác hơn là tính thẩm mỹ thực tế tổng thể.

Yêu cầu: "Một chú mèo trắng đang chơi đàn piano, đeo kính râm và đội mũ, mặc trang phục màu tím theo phong cách Hawaii, toàn thân được chụp trên nền studio màu xám với các yếu tố ánh sáng và một con khủng long bay treo lơ lửng trên trần nhà, ảnh chụp màn hình video thương mại. Bức tường có dòng chữ 'Emerge by Decrypt'"

Flux 1.1 đưa sự tuân thủ nhanh chóng lên một bước xa hơn so với Flux 1 Pro, kết hợp thành công nhiều yếu tố hơn vào cảnh mà không bỏ lỡ mục tiêu. Lời nhắc đầu tiên của chúng tôi cho Flux 1 không bao gồm các yếu tố chiếu sáng hoặc pterodactyl. Ngoài ra, thế hệ mới thực tế hơn và có cảm giác tự nhiên hơn.

Gợi ý: "Một chú chó đứng trên đỉnh TV, trên màn hình hiện chữ 'Giải mã'. Bên trái là một người phụ nữ mặc vest công sở đang cầm một đồng xu, bên phải là một chú rô-bốt đứng trên hộp cứu thương. Toàn cảnh thật siêu thực."

Về mặt nhận thức không gian, Flux 1.1 và Flux 1 có thể so sánh được. Cả hai đều tạo ra tất cả các phần tử mà không có vấn đề gì. Tuy nhiên, Flux 1.1 Pro có vẻ vượt trội hơn khi xem xét các chi tiết bổ sung. Ví dụ, ít bị tràn lời nhắc hơn (khi mô hình lấy các phần tử từ lời nhắc và sử dụng chúng ở các khu vực khác). Trong thế hệ Flux 1.1, người phụ nữ cầm một đồng xu mà không thấy có đồng xu bổ sung nào, trong khi Flux 1 tạo ra một kho tiền xu bên cạnh con chó. Hơn nữa, lỗi với bàn tay bổ sung trong Flux 1 Pro không có trong mô hình mới hơn và phong cách siêu thực được thể hiện tốt hơn trong thế hệ Flux 1.1.

Flux 1.1 Pro nhìn chung nhất quán và hợp lý hơn qua các thế hệ. Nếu bạn không thể chạy mô hình cục bộ, thì đây là đối thủ rất tốt. Nó hiểu ngôn ngữ tự nhiên, phù hợp với người mới bắt đầu, mặc dù đây không phải là thế mạnh chính của nó. MidJourney có xu hướng sáng tạo hơn trong khi cải thiện các lời nhắc kém.

Tuy nhiên, Flux 1.1 Pro rẻ hơn, nhanh hơn và nhìn chung có chất lượng tốt hơn bất kỳ mẫu nào hiện tại, có khả năng trở thành lựa chọn tốt nhất cho những ai tìm kiếm khả năng tuân thủ nhanh chóng, chất lượng và tạo văn bản tốt.

Đối với những người sẵn sàng trả tiền cho mô hình, bất kỳ tùy chọn hiện tại nào cũng có thể thực hiện được. Chúng tôi thích dịch vụ do Fal.AI cung cấp vì nó cung cấp nhiều quyền kiểm soát hơn những dịch vụ khác. Tuy nhiên, Freepik có vẻ là lựa chọn tốt nhất cho những ai muốn có trải nghiệm chuyên nghiệp hơn. Mặc dù đắt hơn một chút, nhưng nó linh hoạt hơn đáng kể, không chỉ cung cấp dịch vụ tạo hình ảnh mà còn cung cấp các tính năng bổ sung như nâng cấp hình ảnh, tô màu, tạo bản nháp thành hình ảnh, trình xóa nền và thư viện nội dung để thử nghiệm.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận