Cách đây một thời gian, GPT-4o đã trở nên rất phổ biến. Khả năng xử lý hình ảnh và chỉnh sửa hình ảnh được cải thiện đáng kể khiến mọi người đều muốn dùng thử. Mặc dù sau đó OpenAI thông báo rằng người dùng miễn phí cũng có thể sử dụng, nhưng tốc độ xuất hình ảnh chậm và số lần hiển thị bị giới hạn vẫn gây khó khăn cho những người dùng bình thường chưa đăng ký ChatGPT.
Vậy ngoài GPT-4o, chúng ta còn có lựa chọn nào khác không? Bạn chỉ cần tìm nó trong Vincent Figure Large Model Arena của Artificial Analysis.
Trong lĩnh vực này, chúng tôi thấy rằng mô hình xếp hạng thứ hai một thời gian trước - HiDream-I1 với tham số 17B và GPT-4o có số điểm rất sít sao.
Artificial Analysis, một nền tảng phân tích và đánh giá chuẩn AI, đã thông báo trên Twitter rằng HiDream-I1 đã trở thành SOTA mới cho các mô hình mã nguồn mở của Wenshengtu. Nền tảng này sử dụng chế độ đấu trường để đánh giá mô hình, tức là đưa ra hai hình ảnh được tạo ra bởi các mô hình khác nhau cùng một lúc, cho phép con người chọn hình ảnh phù hợp nhất với yêu cầu.
Điều đáng nói là mô hình này đã đứng đầu lĩnh vực Phân tích nhân tạo chỉ sau 24 giờ ra mắt và cũng là mô hình AI tạo sinh đầu tiên do Trung Quốc tự phát triển đứng đầu danh sách .
Từ một số hình ảnh so sánh, chúng ta có thể thấy rằng hiệu ứng tạo ra HiDream-I1 có vẻ tốt như GPT-4o, và thậm chí còn tốt hơn FLUX1.1 [pro] đã "soán ngôi Midjourney". Vấn đề là, trong số ba mô hình này, chỉ có HiDream-I1 là mã nguồn mở và đây là loại mã nguồn mởcho phép sử dụng thương mại (giao thức MIT).
Mẫu HiDream-I1: https://huggingface.co/HiDream-ai/HiDream-I1-Full
Mã HiDream-I1: https://github.com/HiDream-ai/HiDream-I1
Hơn nữa, công ty trong nước mã nguồn mở mẫu máy này là Zhixiang Future vừa thông báo rằng họ sẽ sớm mã nguồn mở một mẫu máy khác là HiDream-E1 , cũng hỗ trợ chỉnh sửa hình ảnh tương tác. Nó có thể chỉnh sửa hình ảnh bạn cung cấp thành bất kỳ kiểu dáng và nội dung nào, giống như GPT-4o. Cả hai kết hợp lại tạo ra hiệu ứng "nói đúng những gì bạn nói" tương tự như chức năng tạo và chỉnh sửa hình ảnh của GPT-4o, lấp đầy khoảng trống trong "phiên bản mã nguồn mở của GPT-4o".
Hiệu ứng chỉnh sửa hình ảnh của HiDream-E1, mô hình này sẽ sớm mã nguồn mở.
Vậy, HiDream-I1 có điểm gì tốt? Chúng ta có thể xem xét thêm nhiều trường hợp để phân tích chi tiết.
Hiệu ứng hình ảnh thô của HiDream-I1 thế nào?
Lý do khiến GPT-4o và Flux trở nên phổ biến là vì hình ảnh do chúng tạo ra chân thực, tinh tế và có thể tuân theo hướng dẫn.
Để kiểm tra xem HiDream-I1 có thể mang danh hiệu "phiên bản mã nguồn mở của GPT-4o" hay không, chúng tôi đã thử nghiệm tham khảo một số lời nhắc do OpenAI đưa ra khi chính thức công bố các khả năng mới của GPT-4o cách đây một thời gian.
Các ví dụ và lời nhắc được đưa ra trong blog GPT-4o.
Các kết quả được tạo ra bởi HiDream-I1 như sau:
Yêu cầu: Bức ảnh chân thực về một chú ngựa đang phi nước đại từ phải sang trái trên một đại dương rộng lớn, êm đềm, mô tả chính xác những vệt nước bắn tung tóe, hình ảnh phản chiếu và những họa tiết gợn sóng tinh tế bên dưới móng ngựa. Phóng đại chuyển động của con ngựa, nhưng mọi thứ khác đều phải tĩnh lặng để thể hiện sự tương phản với sức mạnh của con ngựa. Bố cục rõ ràng, mang tính điện ảnh. Một bức ảnh toàn cảnh rộng lớn cho thấy đường chân trời xa xăm. Góc nhìn của bầu khí quyển tạo ra độ sâu. Con ngựa được phóng đại trông có vẻ nhỏ bé so với đại dương bao la.
Mẹo: Ảnh chụp một đĩa trái cây kết hợp với trái cây thật và các hành tinh thu nhỏ (Sao Mộc, Sao Thổ, Sao Hỏa, Trái Đất), giữ nguyên hình ảnh phản chiếu, ánh sáng và bóng đổ thực tế so với ảnh gốc, với bố cục rõ ràng, kết cấu thực và chi tiết rõ nét.
Gợi ý: Một cảnh dưới nước chân thực với những chú cá heo bơi qua cửa sổ của một toa tàu điện ngầm bỏ hoang, cùng với các bong bóng và dòng nước được mô phỏng chi tiết chính xác.
Gợi ý: Bức ảnh tự nhiên theo phong cách paparazzi này cho thấy Karl Marx đang vội vã đi qua bãi đậu xe của Trung tâm mua sắm Mall of America, liếc nhìn xung quanh với vẻ mặt ngạc nhiên khi ông cố gắng tránh bị chụp ảnh. Trên tay anh ta cầm nhiều túi mua sắm sáng bóng chứa đầy những món đồ xa xỉ. Chiếc áo khoác của anh ta tung bay trong gió và một trong đó những chiếc túi của anh ta đung đưa như thể anh ta đang sải những bước dài. Bối cảnh mờ với ô tô và lối vào trung tâm thương mại phát sáng để nhấn mạnh chuyển động. Đèn flash từ máy ảnh đã làm bức ảnh bị phơi sáng quá mức, tạo cảm giác hỗn loạn như ảnh trên báo lá cải.
Nhìn lên, hình ảnh do HiDream-I1 tạo ra rất gần với hình ảnh do GPT-4o tạo ra về mặt chân thực và tinh tế , thậm chí đôi khi còn đẹp hơn. Tính năng này thậm chí còn rõ ràng hơn khi so sánh với Flux .
Ví dụ, trong ví dụ bên dưới, hình ảnh do HiDream-I1 tạo ra có nhiều thành phần tinh tế hơn, bao gồm họa tiết, chi tiết bối cảnh và cảm giác phân cấp giữa các đối tượng (lông mèo nổi bật dưới ánh sáng, mang lại cảm giác mạnh mẽ về sức sống; chất liệu thép không gỉ của ấm cà phê phản chiếu ánh sáng vừa phải, cho thấy họa tiết chân thực). So sánh với Flux, mặc dù Flux cũng có thể tạo ra hình ảnh có chi tiết tốt, nhưng kết cấu chi tiết của nó không tinh tế và phong phú bằng HiDream-I1.
Gợi ý: Một chú mèo màu cam dễ thương ngồi cạnh máy xay cà phê, từ từ xoay tay cầm của máy xay bằng chân. Biểu cảm tập trung và tiếng kêu gừ nhẹ của chú mèo được ghi lại trong căn bếp ấm cúng và yên bình. Ánh sáng ấm áp, dịu nhẹ chiếu qua cửa sổ, tạo nên ánh sáng dịu nhẹ trên chú mèo và máy xay, làm tăng thêm bầu không khí yên tĩnh. Cảnh này được thể hiện theo phong cách hiện thực, nhấn mạnh sự bình tĩnh và gần gũi.
Về khả năng hiển thị màu sắc, HiDream-I1 cũng hoạt động tốt hơn và có thể tạo ra hình ảnh với các lớp riêng biệt và tông màu đa dạng (hãy nhìn kỹ vào bộ lông trên mặt con sói trong hình bên dưới, các lớp màu của HiDream-I1 và GPT-4o phong phú hơn). Mặc dù cách sử dụng màu sắc của Flux cũng khá phong phú, nhưng trong một số cảnh, việc kết hợp màu sắc và chuyển tiếp có vẻ khá đơn giản, thiếu một mức độ bão hòa và phân lớp nhất định.
Gợi ý: Một con sói 3D trong bộ lễ phục của một nhạc sĩ. Đứng thẳng trên hai chân như con người, cầm đàn ghi-ta, xung quanh là dàn âm thanh và sân khấu, nơi đây toát lên bầu không khí nghệ thuật và thanh lịch.
Ngoài ra, cảm giác chân thực và tinh tế này còn xuất phát từ sự hiểu biết của người mẫu về các quy luật khách quan. Như có thể thấy trong hình bên dưới, HiDream-I1 có khả năng hiểu chính xác hơn về các quy luật khách quan. Cho dù đó là vị trí của các vật thể, chuyển động và tư thế của nhân vật hay hiệu ứng ánh sáng và bóng tối trong hoàn cảnh, HiDream-I1 đều có thể hiển thị các quy luật tự nhiên phù hợp với thế giới thực. Tuy nhiên, Flux có một số hạn chế nhất định về mặt này, đặc biệt là khi xử lý các cảnh động và tương tác vật lý phức tạp. Hiệu suất của mô hình không đủ thực tế và thường không tuân theo các định luật vật lý.
Gợi ý: Một chú mèo 3D mặc bộ lễ phục của nhạc sĩ, đứng thẳng trên hai chân, cầm một cây vĩ cầm, xung quanh là những nốt nhạc xoáy và một cây đại dương cầm, toát lên bầu không khí nghệ thuật và thanh lịch, với ánh đèn rọi sáng toàn cảnh, tạo nên một hoàn cảnh ấn tượng và tinh tế.
Ngay cả khi gặp phải các từ gợi ý phức tạp, các tính năng này vẫn có thể được lưu giữ trong hình ảnh do HiDream-I1 tạo ra. Điều này phản ánh khả năng hiểu và theo dõi các văn bản phức tạp của mô hình.
Hình ảnh được tạo bởi HiDream-I1. Gợi ý: Những bức tường đá của một lâu đài thời trung cổ, một chiến binh mặc áo giáp quay mặt về phía máy ảnh và ngọn lửa bùng cháy phía sau anh ta phác họa đường nét khuôn mặt thô ráp. Những tia lửa bắn tung tóe vào bộ giáp xích rỉ sét theo làn gió, tay phải của anh vô thức nắm chặt chuôi kiếm ở thắt lưng, chiếc áo choàng màu nâu sẫm tung bay dữ dội trong làn sóng nhiệt. Những mũi tên cháy vẫn tiếp tục bắn xuống từ những tòa tháp xa xa, ngọn lửa màu đỏ cam tương phản rõ nét với bầu trời đêm màu chàm, làm sáng bừng lớp rêu bong tróc trên tường thành và những vết sẹo cũ trên lông mày của các chiến binh.
Các hiệu ứng hình ảnh trên đã được xác nhận trong nhiều dữ liệu thử nghiệm chuẩn khác nhau:
- Đầu tiên là HPSv2.1 , một mô hình dự đoán sở thích được đào tạo trên dữ liệu lựa chọn sở thích của con người, có khả năng so sánh điểm số của các hình ảnh khác nhau được tạo ra từ cùng một lời nhắc. Ở tiêu chuẩn này, HiDream-I1 đạt hiệu suất tối ưu trên nhiều phong cách như anime, nghệ thuật ý tưởng, hội họa và nhiếp ảnh chân thực. Điều này cho thấy các phong cách hình ảnh khác nhau do HiDream-I1 tạo ra phù hợp hơn với thẩm mỹ của con người .
- Tiếp theo là GenEval và DPG-Bench . Phương pháp đầu tiên xác minh sự trùng khớp giữa hình ảnh được tạo ra và lời nhắc văn bản bằng cách phát hiện các đối tượng và phân loại màu sắc, trong khi phương pháp thứ hai tập trung vào việc phát hiện nhiều đối tượng, thuộc tính chi tiết và mối quan hệ phức tạp trong hình ảnh được tạo ra (tiêu chuẩn này phù hợp khi lời nhắc dài và phức tạp). Ở cả hai điểm chuẩn, HiDream-I1 đều đạt hiệu suất tốt nhất. Điều này cho thấy HiDream-I1 có khả năng thực hiện hướng dẫn rất tốt .
Dữ liệu điểm HiDream-I1 trên HPSv2.1.
Dữ liệu điểm số của HiDream-I1 trên GenEval.
Dữ liệu điểm số của HiDream-I1 trên DPG-Bench.
Để nâng cao chất lượng hình ảnh thô, Zhixiang đã thực hiện những cải tiến kỹ thuật nào trong tương lai?
Khả năng mạnh mẽ để làm theo hướng dẫn và các hiệu ứng tạo ra thực tế và tinh tế về cơ bản là nhờ vào những cải tiến về công nghệ.
Để cải thiện khả năng hiểu văn bản của mô hình, HiDream-I1 áp dụng thiết kế kiến trúc mới có tên gọi là "Sparse Diffusion Transformer (Sparse DiT)" . Kiến trúc này tích hợp công nghệ Hỗn hợp chuyên gia thưa thớt (MoE) trong khuôn khổ DiT, cho phép các mô hình chuyên gia khác nhau xử lý các loại đầu vào văn bản khác nhau, mỗi loại có chuyên môn riêng.
Đồng thời, thiết kế kiến trúc này cũng mang lại một lợi ích bổ sung - kiểm soát chi phí điện toán đồng thời cải thiện hiệu suất mô hình, khiến HiDream-I1 có hiệu quả về mặt chi phí rất cao. Đây là một tính năng tối ưu hóa rất hữu ích cho các nhà phát triển và công ty khởi nghiệp quan tâm đến mức tiêu thụ tỷ lệ băm của các mô hình mã nguồn mở .
Sơ đồ kiến trúc mô hình HiDream-I1.
Sự cải thiện về chất lượng hình ảnh là nhờ vào việc các nhà nghiên cứu tích hợp phương pháp học đối nghịch tạo sinh vào quá trình chưng cất mô hình khuếch tán. Với sự trợ giúp của khả năng nắm bắt chi tiết và làm sắc nét các cạnh của GAN, tính chân thực và độ rõ nét của hình ảnh được tạo ra được cải thiện hơn nữa trong khi chắt lọc mô hình khuếch tán, đạt được khả năng tối ưu hóa kép về tốc độ và chất lượng.
Điều đáng nói là HiDream-I1 được đào tạo theo cách này có mở rộng mạnh mẽ. Ngay sau khi mô hình được đào tạo, Zhixiang Future mở rộng nó thành mô hình chỉnh sửa hình ảnh tương tác lớn HiDream-E1, tạo ra "phiên bản mã nguồn mở của GPT-4o" có sẵn trong các tình huống chỉnh sửa hình ảnh.
Các mô hình sê-ri HiDream mã nguồn mở và ảnh hưởng của chúng đã được chứng minh ban đầu
Cho dù là từ kết quả đo thực tế hay kết quả thử nghiệm chuẩn, HiDream-I1 của Zhixiang Future đều đã rất gần với GPT-4o và đã khẳng định vị thế của mình ở phân khúc đầu tiên trong lĩnh vực sản xuất hình ảnh trong nước.
Hơn nữa, vì mô hình này là mã nguồn mở nên sức ảnh hưởng quốc tế của nó đang dần nổi lên. Hai ngày sau khi mã nguồn mở, Recraft AI, một công ty mô hình khác trong Vincent Model Arena, đã thông báo rằng họ đã tích hợp HiDream-I1 và hướng dẫn cư dân mạng cách chọn mô hình này.
Trong danh sách Xu hướng của HuggingFace, HiDream-I1 đã vươn lên vị trí thứ hai. Điều này cho thấy HiDream-I1 có lượng tải xuống và lượt thích đáng kể và rất phổ biến trong cộng đồng.
Tất nhiên, những người bạn không có nhu cầu triển khai cục bộ cũng có thể trải nghiệm HiDream-I1 trên Vivago, nền tảng chính thức của Zhixiang Future. Nền tảng này có quy trình làm việc hoàn thiện hơn và hỗ trợ sáng tạo lần như tạo ra video dựa trên hình ảnh được tạo ra.
Có thông tin cho rằng Zhixiang cũng sẽ tung ra các sản phẩm Đại lý đa phương thức trong tương lai. Cốt lõi của nó là cho phép mọi người tạo ra hình ảnh/video dưới dạng hội thoại và trò chuyện, và sử dụng ngôn ngữ tự nhiên để chỉnh sửa nội dung hình ảnh/video cho phù hợp, để dần dần tạo ra nội dung có cốt truyện. Sự tiện lợi nằm ở chỗ người dùng không cần phải lựa chọn và gọi các chức năng cần thiết trên nhiều nền tảng và điều chỉnh các thông số phức tạp.
Yao Ting, Giám đốc công nghệ của Zhixiang Future, đã từng giải thích về khái niệm cải tiến mô hình và phát triển sản phẩm này - về mặt ứng dụng, tính thực tế, khả năng làm theo hướng dẫn và khả năng tường thuật là cơ sở để người dùng trả tiền cho chúng, vì vậy Zhixiang Future luôn chú ý đến ba thuộc tính này trong quá trình cải tiến mô hình. Ngày nay, họ đã đưa ba điểm này lên một tầm cao mới và cũng đã mã nguồn mở mô hình, có thể nói là đã loại bỏ những trở ngại cơ bản đối với các nhà phát triển hoặc công ty muốn phát triển ứng dụng trong lĩnh vực này.
Đội ngũ R&D của Zhixiang tiết lộ rằng model mã nguồn mở tiếp theo - HiDream-E1 sẽ sớm mã nguồn mở và dữ liệu thử nghiệm chuẩn liên quan cũng sẽ được công bố trong tương lai gần. Tôi mong đợi mô hình này sẽ mang lại trải nghiệm chỉnh sửa tuyệt vời.
Bài viết này trích từ tài khoản công khai WeChat “Machine Heart” (ID: almosthuman2014) , tác giả: Machine Heart, được 36Kr xuất bản với sự cho phép.



