lllustrious: Mô hình AI muốn thống trị thế hệ nghệ thuật Anime

01-14

Bài viết này được dịch máy

Xem bản gốc

Illustrious, một mô hình chuyển đổi văn bản thành hình ảnh dựa trên Stable Diffusion XL, đã trở nên thống trị trong cộng đồng nghệ thuật AI đến mức Civitai, trung tâm lớn nhất về các mô hình nghệ thuật AI, phải tạo ra một danh mục riêng để xử lý hệ sinh thái tài nguyên khổng lồ của nó.

Và tất cả đều xảy ra trong ba tháng. Bí mật đằng sau thành công của nó? Quay lại cơ bản với một sự thay đổi.

Trong khi các mô hình mới như SD 3.5 và Flux dựa vào các mô tả ngôn ngữ tự nhiên dài, Onoma AI, những nhà phát triển của Illustrious, đã áp dụng một cách tiếp cận khác bằng cách sử dụng thẻ Danbooru để giúp mô hình của họ hiểu các khái niệm mà không cần phải tái phát minh ra hệ thống ghi chú phức tạp.

Việc mô hình được đào tạo trên thư viện hình ảnh hoạt hình được gắn thẻ khổng lồ của Danbooru giúp nó có lợi thế trong việc hiểu các khái niệm hình ảnh.

Mỗi thẻ trong hệ thống Danbooru đại diện cho các yếu tố cụ thể như đặc điểm nhân vật, các mặt hàng trang phục, tư thế hoặc phông nền, cho phép kiểm soát chính xác các hình ảnh được tạo ra mà không cần lãng phí các Bit quý báu vào các mô tả dài.

Những thẻ này đã tồn tại trong nhiều năm và đã trở thành một tiêu chuẩn cho việc phân loại hình ảnh trong cộng đồng nghệ thuật/hoạt hình.

Mô hình này rất chính xác và hiệu quả khi nó đến với việc hiểu các đặc điểm của một bức ảnh.

"Nó giống như có một nghệ sĩ hiểu chính xác những gì bạn muốn mà không cần phải giải thích trong nhiều đoạn văn," Vishnu, một thành viên Discord tham gia vào một máy chủ tập trung vào nội dung AI NSFW, nói với Decrypt. "Bạn chỉ cần biết những thẻ đúng."

Ở cốt lõi, Illustrious sử dụng kiến trúc SDXL cũ tốt với một hệ thống mã hóa kép tinh vi kết hợp CLIP ViT-L và OpenCLIP ViT-bigG để hiểu từ và liên kết chúng với tương đương hình ảnh của chúng.

Mô hình này có khả năng xử lý và tạo ra hình ảnh ở độ phân giải ấn tượng 1536×1536, với khả năng mở rộng lên đến 2048×2048 và thậm chí 3744x3744 mà không bị mất chất lượng đáng kể.

Để có bối cảnh, SDXL ban đầu chỉ xử lý được độ phân giải Full HD (1024x1024).

Hành trình tạo ra Illustrious đã được thực hiện một cách có hệ thống và cẩn thận. Giai đoạn đào tạo ban đầu, tạo ra phiên bản 0.1, đã xử lý 7,5 triệu hình ảnh ở độ phân giải 1024×1024 với kích thước batch là 192 hình ảnh mỗi batch.

Nhóm đã cân bằng cẩn thận tỷ lệ học tập, chạy trong 20 epoch (quá trình mà AI học 100% tập dữ liệu của nó) để thiết lập một nền tảng vững chắc. Một khi kết quả đủ hài lòng, nhóm tiến hành tăng kích thước tập dữ liệu và độ phân giải được sử dụng cho các lần lặp tiếp theo.

Trong giai đoạn đào tạo nâng cao, Illustrious thực sự bắt đầu tỏa sáng. Phiên bản 1.0 mở rộng tập dữ liệu lên 10 triệu hình ảnh và nâng độ phân giải lên 1536×1536.

Mặc dù họ giảm kích thước batch xuống còn 128, họ đã giới thiệu các chiến lược thao tác thẻ tinh vi và đăng ký Bit, những thay đổi cơ bản định nghĩa hiệu suất xuất sắc của mô hình.

Giai đoạn hoàn thiện cuối cùng cho phiên bản 2.0 đã đi xa hơn một chút. Làm việc với 20 triệu hình ảnh ở cùng độ phân giải cao nhưng với kích thước batch lớn hơn là 512, nhóm đã áp dụng một phương pháp ghi chú đa ngữ cảnh đã cải thiện đáng kể sự tương ứng giữa văn bản và hình ảnh.

Kết quả là bộ tạo waifu tốt nhất mà con người biết đến, với khả năng tinh chỉnh tốt, tuân thủ lời nhắc, thẩm mỹ tạm chấp nhận được và đầu ra chất lượng cao.

Đối với những người am hiểu về công nghệ, các nhà phát triển Illustrious cũng đã giới thiệu nhiều kỹ thuật thú vị như phương pháp "Không Loại bỏ Bit", đảm bảo rằng các Bit cụ thể sẽ không bao giờ bị loại trừ trong quá trình đào tạo; việc thực hiện Quasi-Register Bit, để mô hình có thể xử lý các khái niệm không xác định hoặc kỳ lạ; Bộ Lập Lịch Giảm Dần Cosin, cho tỷ lệ học tập; Hệ Thống Dropout Đa Cấp và Tăng Cường Nhiễu Đầu Vào, để biến một mô hình AI đơn giản thành một cỗ máy mạnh mẽ.

Illustrious không cần bất kỳ bước bổ sung nào để chạy.

Quá trình cài đặt giống như với bất kỳ mô hình SDXL khác. Tải điểm kiểm tra và đặt nó vào thư mục tương ứng, tùy thuộc vào giao diện người dùng nào bạn sử dụng.

Windows và Linux

MacOS

Người dùng Mac có các con đường tương tự. Tuy nhiên, một số giao diện người dùng định hướng macOS yêu cầu các bước bổ sung.

Một khi mô hình được tải, có ba điều cần xem xét.

Có nhiều mô hình để lựa chọn, tất cả đều tập trung vào các phong cách, thẩm mỹ và đặc điểm khác nhau.

Thậm chí còn có các mô hình tổng quát như những người từ Noob AI đã sử dụng Illustrious làm cơ sở và đang được những người tinh chỉnh sử dụng để xây dựng các mô hình của họ.

Tuy nhiên, dưới đây là những lựa chọn hàng đầu của chúng tôi cho các nhu cầu khác nhau. Những mô hình này rất tốt trong việc hiểu lời nhắc, chất lượng đầu ra và dễ sử dụng. Tất cả các mẫu đều đến từ cộng đồng Civit AI và không bị vi phạm bản quyền.

Liên kết: Mistoon_Anime - v1.0 Illustrious | Illustrious Checkpoint | Civitai

Liên kết: Smooth Mix - Illustrious | Pony - Illustrious | Illustrious Checkpoint | Civitai

Liên kết: NTR MIX | illustrious-XL | Noob-XL - XIII | Illustrious Checkpoint | Civitai

Liên kết: THRILLustrious - v5.0 THRILLed | Illustrious Checkpoint | Civitai

Được chỉnh sửa bởi Sebastian Sinclair và Josh Quittner

Khu vực:

Tính Tương Tác

Quản Trị

Hợp Đồng Thông Minh

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan