Bản phát hành lớn mới nhất của Stability AI, SD3, đã tạo được tiếng vang đáng kể trong cộng đồng AI. Với những hứa hẹn về khả năng tuân thủ nhanh chóng, hiệu quả, độ chính xác và chất lượng tổng thể được nâng cao, SD3 đã ra mắt ngày hôm qua với hy vọng thiết lập một chuẩn mực mới trong việc tạo ra hình ảnh. Chúng tôi nhanh chóng bắt đầu xem SD3 tốt như thế nào so với người tiền nhiệm của nó, SDXL, cũng như so với các mẫu hàng đầu khác, MidJourney và Ideogram .
Cuộc so sánh trực tiếp của chúng tôi sử dụng những lời nhắc giống nhau cho từng mô hình để đảm bảo một cuộc chiến công bằng, mặc dù nó có vẻ khác thường do sự khác biệt nội tại giữa các mô hình. Quá trình đánh giá bao gồm nhiều tình huống khác nhau, kiểm tra khả năng của người mẫu trong việc xử lý các gợi ý nghệ thuật chi tiết cũng như các tình huống hàng ngày. Với cùng một hạt giống được sử dụng cho SD3 và SDXL và các lời nhắc tiêu cực được tiêu chuẩn hóa cho các thế hệ Khuếch tán ổn định, sân chơi đã được san bằng.
Dưới đây là kết quả của chúng tôi trên nhiều loại hình ảnh. Tất cả các hình ảnh được trình bày theo cùng một thứ tự: SD3 (trên cùng bên trái), SDXL (trên cùng bên phải), MidJourney (dưới cùng bên trái) và Ideogram (dưới cùng bên phải). Chúng tôi sẽ chia sẻ quan điểm của mình về từng vấn đề nhưng bạn cũng có thể tự mình đánh giá.
Lời nhắc : Hình minh họa vẽ tay về một con nhện khổng lồ đang đuổi theo một người phụ nữ trong rừng, cực kỳ đáng sợ, thống khổ, khung cảnh tối tăm và rùng rợn, kinh dị, gợi ý về ảnh hưởng của nhiếp ảnh tương tự, phác họa.
SD3 và SDXL đều áp dụng phong cách đen trắng gợi nhớ đến truyện tranh cũ. Tuy nhiên, đầu ra của SD3 chi tiết hơn đáng kể, ghi lại các yếu tố phức tạp như chân của con nhện và biểu cảm đau khổ của người phụ nữ. MidJourney đã thực hiện một cách tiếp cận nghệ thuật hơn, tạo ra một hình minh họa sống động—trong khi hấp dẫn về mặt hình ảnh—khác với các chỉ thị "vẽ tay" và "phác họa" của lời nhắc. Cách giải thích của Ideogram phản ánh cách tiếp cận phong cách của SD3 nhưng đã thêm màu xanh lam không được chỉ định trong lời nhắc và không phải là bản phác thảo.
Về độ chính xác, SD3 và Ideogram đã mô tả chính xác người phụ nữ đang chạy trốn khỏi con nhện, bám sát lời kể của lời nhắc. Ngược lại, SDXL và MidJourney hiển thị không chính xác người phụ nữ đang tiếp cận con nhện, điều này mâu thuẫn với lời nhắc. Dựa trên đặc điểm kỹ thuật phác thảo của lời nhắc, hình minh họa đen trắng, có độ chi tiết cao của SD3 chính xác hơn bố cục màu của Ideogram, vốn thiếu chi tiết trên khuôn mặt.
Người chiến thắng : SD3.
Lời nhắc : Một con thằn lằn mặc bộ đồ.
SD3 đã mô tả chính xác một con thằn lằn trong bộ đồ, bám sát lời nhắc. Con thằn lằn vẫn giữ được vẻ ngoài tự nhiên, với vảy và các đặc điểm của loài bò sát, được tích hợp liền mạch vào một bộ đồ được cắt may khéo léo. Ngược lại, SDXL, MidJourney và Ideogram đã nhân hóa loài thằn lằn, thay vào đó tạo ra những loài thằn lằn hình người.
Phiên bản của SDXL và MidJourney có độ chi tiết cao và chân thực, giống như những bức ảnh. Đầu ra của MidJourney có kết cấu và độ sâu sống động như thật, gần giống với chụp ảnh tương tự, nhưng không tạo ra bộ đồ. Bức chân dung của Ideogram đã được chỉnh sửa rất nhiều, giống như những bức ảnh chính thức do các chính trị gia chụp, với vẻ ngoài lịch sự và trang trọng. Mặc dù những kết quả đầu ra này có chất lượng cao nhưng SD3 vẫn xuất sắc về tính chân thực, tuân thủ nhanh chóng và chính xác, khiến kết quả của nó trở nên đáng tin cậy nhất.
Người chiến thắng : SD3.
Lời nhắc : Một người phụ nữ xinh đẹp nằm trên bãi cỏ.
Rõ ràng đã xảy ra lỗi với SD3.
Lời nhắc này đã bị cắt vì một trong những điều đầu tiên mà cộng đồng nghệ thuật AI lưu ý là SD3 không có khả năng tạo ra hình ảnh những người nằm trên cỏ. Trên thực tế, điều này đã nhanh chóng trở thành một meme .
SDXL trình bày bức ảnh khoe eo của người phụ nữ, tập trung vào phần thân trên và khuôn mặt của cô ấy. MidJourney và Ideogram đã chọn hình ảnh cận cảnh. Kết quả của MidJourney là chân thực nhất, thể hiện những chi tiết đẹp đẽ trên nét mặt của người phụ nữ và bãi cỏ xung quanh cô ấy. Tuy nhiên, nó đã nhấn mạnh quá mức vào hiệu ứng mờ ảo, không chỉ làm mờ hậu cảnh mà còn làm mờ các bộ phận trên cơ thể người phụ nữ. Chữ tượng hình tránh được vấn đề hiệu ứng nhòe quá mức, duy trì độ rõ nét ở cơ thể người phụ nữ và bãi cỏ.
Còn với SD3 thì đó là một lỗi không thể giải thích được. Trên thực tế, SD3 dường như gặp khó khăn trong việc tạo ra hình ảnh con người “nằm” không chỉ trên cỏ mà còn trên bất cứ thứ gì. Chúng tôi đã thử hình ảnh, hình minh họa, kết xuất. Chúng tôi đã thử tạo ra đàn ông, phụ nữ, người lớn tuổi, trẻ em và bất cứ thứ gì giống con người. Tư thế “nằm” biến tất cả chúng thành những sinh vật khổng lồ.
Người chiến thắng : Với việc tung ra SD3, đây là sự kết hợp giữa MidJourney và Ideogram.
Lời nhắc : Một người đàn ông và một người phụ nữ đang ăn tối trong một nhà hàng mang phong cách tương lai, minh họa, hậu ấn tượng, impasto.
Bài kiểm tra này đánh giá khả năng tái tạo các chuyển động nghệ thuật cụ thể của người mẫu. SD3 đã xuất sắc, tạo ra những nét vẽ ấn tượng và nắm bắt được bản chất của chủ nghĩa hậu ấn tượng. Kết cấu và lớp sơn trong đầu ra của SD3 rất rõ ràng, thể hiện sự hiểu biết sâu sắc về phong cách.
SDXL đứng thứ hai, mô phỏng thành công phong cách hậu ấn tượng nhưng thiếu kỹ thuật impasto rõ rệt. MidJourney và Ideogram không thể hiện sự hiểu biết rõ ràng về phong cách nghệ thuật, tạo ra những hình ảnh minh họa chung chung không phù hợp với yêu cầu kỹ thuật của lời nhắc.
Người chiến thắng : SD3.
Lời nhắc : Một người đàn ông và một người phụ nữ đang ăn tối trong một nhà hàng mang phong cách tương lai, minh họa theo phong cách của Vincent Van Gogh.
SD3 đã thể hiện khả năng tái tạo phong cách của Van Gogh một cách mạnh mẽ, kết hợp các nét vẽ và bảng màu đặc biệt của ông xuyên suốt, đặc biệt là với hình ảnh miêu tả cặp đôi. Bố cục cũng mô tả chính xác một nhà hàng tương lai. SDXL theo sát, pha trộn các nhân vật theo phong cách truyện tranh hiện thực với môi trường lấy cảm hứng từ Van Gogh.
Đầu ra của MidJourney kém mạch lạc hơn, không khắc họa được nhà hàng và thiếu phong cách nghệ thuật như yêu cầu. Cặp đôi dường như đang ăn tối dưới nước, điều này đi chệch khỏi lời nhắc. Ideogram đã tạo ra một bức ảnh đơn giản về một người đàn ông và một người phụ nữ trong một nhà hàng mà không hề cố gắng bắt chước phong cách của Van Gogh.
Người chiến thắng : SD3.
Lời nhắc : Ảnh chuyên nghiệp, ảnh chân dung cận cảnh của một người đàn ông da trắng, mặc áo len đen, khuôn mặt nghiêm túc, ánh sáng ấn tượng, thiên nhiên, u ám, thời tiết nhiều mây, hiệu ứng mờ ảo.
SD3 ghi lại một cách hiệu quả biểu cảm nghiêm túc, u ám và trang phục áo len màu đen với ánh sáng ấn tượng và độ sâu trường ảnh nông, tạo ra vẻ buồn bã, chuyên nghiệp. Bố cục bao gồm một môi trường tự nhiên, ảm đạm, phù hợp với lời nhắc.
Đầu ra của SDXL tuân theo phong cách chân dung truyền thống do AI tạo ra, với bầu trời u ám và tán lá trên nền mờ. Tuy nhiên, khuôn mặt có vẻ đã được chỉnh sửa nhiều, thiếu những khiếm khuyết thực tế. Phiên bản của MidJourney có bảng màu ấm áp và bối cảnh thành thị, khác hẳn với khía cạnh tự nhiên của lời nhắc.
Bố cục của Ideogram đáp ứng tất cả các tiêu chí, mang lại khung hình cận cảnh, áo len đen, biểu cảm nghiêm túc, ánh sáng ngoài trời ảm đạm và một chút hiệu ứng mờ ảo ở hậu cảnh. Đó cũng là bức ảnh chân thực nhất trong số các người mẫu.
Người chiến thắng : Chữ tượng hình.
Lời nhắc : Một người phụ nữ tạo dáng trước bức tường ở một thành phố tương lai với tấm biển ghi "Xuất hiện bằng cách giải mã".
Việc tạo văn bản tỏ ra đầy thách thức đối với tất cả các mô hình. Không có mô hình nào hiển thị thành công văn bản “Emerge by Decrypt” một cách chính xác. SDXL cung cấp cảnh quan thành phố tương lai nhất nhưng không bao gồm tất cả các yếu tố được chỉ định trong lời nhắc. SD3 đã quản lý để tạo ra bức tường, biển báo và thành phố — mặc dù văn bản không chính xác.
MidJourney là cái chính xác nhất, tạo ra tấm biển, bầu không khí tương lai của thành phố và bức tường. Chữ tượng hình tạo ra bức tường và thành phố nhưng bỏ qua dấu hiệu. Bất chấp những vấn đề này, khả năng kết hợp tất cả các yếu tố chính của bố cục của SD3, ngay cả với văn bản không hoàn hảo, đã khiến nó trở thành người chiến thắng trong tình huống này.
Người chiến thắng : MidJourney—nhưng đây là một thế hệ may mắn vì Ideogram có xu hướng nhất quán hơn trong việc tạo văn bản trong hình ảnh nói chung.
SD3 thể hiện những cải tiến đáng kể so với SDXL tiền nhiệm và hiệu suất cạnh tranh với MidJourney và Ideogram trong nhiều tình huống khác nhau. SD3 vượt trội về khả năng tuân thủ nhanh chóng, như đã hứa, cũng như tái tạo chi tiết và phong cách nghệ thuật. SD3 đã chứng minh được tiềm năng của nó như một mô hình cơ sở mạnh mẽ.
Tuy nhiên, sự kiểm duyệt chặt chẽ và những hạn chế khó hiểu của nó trong việc tạo ra những người ở những vị trí nhất định cho thấy nó có thể được sử dụng tốt nhất khi kết hợp với các công cụ khác.
Ví dụ: người dùng có thể muốn tạo hình ảnh của họ bằng SD 1.5, SDXL hoặc Pixart, sau đó mã hóa các thế hệ đó và gửi chúng đến bộ lấy mẫu khử nhiễu bằng SD3. Điều này sẽ giảm tải quá trình tạo hình ảnh sang SD3 nhưng sẽ sử dụng thế hệ trước làm tài liệu tham khảo thay vì tạo mọi thứ từ đầu. Điều này thậm chí còn có ý nghĩa hơn hiện tại vì không có mô hình tùy chỉnh hoặc thậm chí Controlnet hoặc LoRA nào để cung cấp cho người dùng nhiều tùy chọn hơn để tác động đến mô hình.
Ở trạng thái hiện tại, SD3 tốt hơn SDXL trong nhiều trường hợp sử dụng nhưng không đủ để thay thế nó.
Ryan Ozawa biên tập.




