Trình tạo hình ảnh HiDream của Vivago đánh bại các đối thủ lớn, khiến AI nguồn mở trở nên tuyệt vời trở lại

avatar
Decrypt
04-16
Bài viết này được dịch máy
Xem bản gốc

Vivago AI vừa phát hành HiDream-I1 vào tuần trước, và nó đã nhanh chóng nằm trong top 5 trình tạo hình ảnh tốt nhất, vượt qua các mô hình đã được thiết lập như Flux, Auraflow và Stable Diffusion 3.5 - thậm chí còn vượt qua một số mô hình closed-source tốt nhất như MidJourney v7, Ideogram v3 và Reve.

Vivago là một nền tảng sáng tạo được hỗ trợ bởi AI do Sparking Innovations Limited phát triển, một công ty có trụ sở tại Hồng Kông cung cấp bộ công cụ để tạo và chỉnh sửa nội dung hình ảnh.

HiDream có ba phiên bản: "Full" cung cấp chất lượng đầu ra cao nhất và yêu cầu 50 bước để hiển thị một hình ảnh tốt; "Dev" thực hiện công việc của mình trong khoảng 30 bước, trong khi "Fast" mất khoảng 16 bước để tạo ra kết quả tốt.

Tất nhiên, càng nhiều bước mô hình thực hiện, hình ảnh sẽ càng chi tiết - và sẽ yêu cầu nhiều tài nguyên hơn.

Nhưng điều gì làm cho các mô hình này khác biệt?

Để bắt đầu, kích thước của chúng. HiDream có 17 tỷ tham số mạnh mẽ cho phép nó tạo ra hình ảnh chất lượng cao trên nhiều phong cách trong vài giây. Chỉ để tham khảo, Stable Diffusion SD3.5 gần như nhỏ hơn một nửa.

HiDream-I1 không bị kiểm duyệt và thân thiện với việc sử dụng thương mại. Được phát hành theo giấy phép MIT, nó cho phép "sử dụng không hạn chế cho cả các dự án cá nhân và thương mại".

Tuy nhiên, Vivago lưu ý rằng nó đã lọc dữ liệu đào tạo để loại bỏ "nội dung có vấn đề", nhưng không hạn chế đầu ra, mang lại cho người dùng "sự tự do sáng tạo hoàn toàn" - có nghĩa là bạn sẽ cần một phiên bản được tinh chỉnh nếu muốn tạo hình ảnh NSFW.

(Nội dung có vấn đề không bao gồm việc tạo ra các hình ảnh báng bổ về Chủ tịch Trung Quốc Tập Cận Bình, mặc dù Vivago là một công ty có trụ sở tại Hồng Kông.)

Người dùng cũng phải có phần cứng mạnh mẽ để chạy nó cục bộ.

Các mô hình đầy đủ yêu cầu 27GB VRAM để chạy, điều này chỉ có thể được cung cấp bởi các GPU khổng lồ có giá bắt đầu từ khoảng 2.500 đô la.

Tuy nhiên, trong vài ngày kể từ khi trình tạo hình ảnh được phát hành, các nhà phát triển đã bắt đầu tạo các phiên bản được lượng tử hóa để chạy trên các thiết lập "khiêm tốn" hơn, chỉ yêu cầu 16GB VRAM.

Đối với những người dùng không có phần cứng cao cấp, Vivago cung cấp quyền truy cập trực tuyến thông qua nền tảng của mình cộng với một không gian demo trên Hugging Face. Fal AI cũng hỗ trợ Hidream với giá rẻ:

Dưới đây là những gì chúng tôi đã tìm thấy khi đưa Hidream vào thử nghiệm.

(Phần còn lại của bản dịch sẽ tương tự, giữ nguyên các từ chuyên môn và tên riêng như yêu cầu)

Ngay cả phiên bản Nhanh, mặc dù rõ ràng đã hy sinh chi tiết và độ chính xác, vẫn tạo ra các kết quả mà chỉ vài tháng trước đây vẫn được coi là tiên tiến.

Không giống như các đối thủ mã nguồn đóng, giấy phép MIT và bản chất mã nguồn mở của HiDream có nghĩa là các nghệ sĩ, nhà phát triển và doanh nghiệp có thể tự do điều chỉnh và xây dựng dựa trên nó.

Các yêu cầu phần cứng cao tạo nên một rào cản quan trọng, nhưng nếu lịch sử lặp lại, cộng đồng sẽ tiếp tục tối ưu hóa mô hình để tăng khả năng truy cập rộng rãi hơn.

Đối với những nhà sáng tạo bị hạn chế bởi kiểm duyệt của các mô hình thương mại hoặc bị thất vọng bởi các hạn chế cấp phép, HiDream cung cấp một giải pháp thay thế hấp dẫn.

Các mô hình khá rẻ để chạy trên các máy chủ đám mây theo cơ chế trả tiền theo lượt sử dụng, điều này khiến chúng trở thành một giải pháp thay thế mạnh mẽ so với các mô hình mã nguồn đóng tính phí theo gói hàng tháng hoặc hàng năm.

Khi các phiên bản được lượng tử hóa (các mô hình nhỏ hơn) được cải thiện và nhiều mô hình được tinh chỉnh (các mô hình tùy chỉnh) xuất hiện, tác động của HiDream đối với bối cảnh AI sinh thành có khả năng sẽ phát triển còn xa hơn nữa.

Chỉ cần đợi vài tuần và kiểm tra trên Hugging Face và Civitai để cập nhật. Trong thời gian này, các bản tinh chỉnh Flux vẫn rất mạnh mẽ và hiệu quả.

Được chỉnh sửa bởi Sebastian Sinclair

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận