Illustrious,一個基於Stable Diffusion XL的文字到影象模型,已經在AI藝術社群佔據了主導地位,以至於Civitai(最大的AI藝術模型中心)不得不專門建立一個類別來管理它龐大的資源生態系統。
這一切都發生在三個月內。它成功的秘訣?迴歸基礎,並加入了一些新的元素。
而較新的模型如SD 3.5和Flux依賴於冗長的自然語言描述,Onoma AI(Illustrious的開發者)採取了不同的方法,利用Danbooru標籤來幫助他們的模型理解概念,而無需重新發明複雜的字幕系統。
該模型在Danbooru龐大的標記動漫影象庫上的訓練,使其在理解視覺概念方面佔據優勢。
Danbooru系統中的每個標籤都代表了特定的元素,如角色特徵、服裝、姿勢或背景,這使得在生成影象時可以精確地控制,而無需浪費寶貴的令牌在冗長的描述上。
這些標籤已經存在多年,併成為藝術/動漫愛好者中影象分類的一種標準。
該模型在理解照片特徵方面非常準確和高效。
"這就像有一個藝術家,他完全理解你想要什麼,而無需用段落解釋,"專注於NSFW AI內容的Discord成員Vishnu告訴Decrypt。"你只需要知道正確的標籤。"
從根本上說,Illustrious使用了經典的SDXL架構,並配備了一個複雜的雙編碼器系統,將CLIP ViT-L和OpenCLIP ViT-bigG結合起來,以理解單詞並將其與視覺等價物關聯起來。
該模型能夠以1536×1536的解析度處理和生成影象,並且能夠無顯著質量損失地拉伸到2048×2048甚至3744x3744。
對比之下,原始的SDXL只能處理全高畫質解析度(1024x1024)。
創造Illustrious的過程是有條不紊的。初始訓練階段,產生了0.1版本,處理了750萬張1024×1024解析度的影象,每批192張。
團隊仔細平衡了學習率,運行了20個epoch(AI研究其全部資料集的過程),以建立一個堅實的基礎。一旦結果令人滿意,團隊就開始增加資料集大小和解析度,進行下一輪迭代。
在高階訓練階段,Illustrious真正開始大放異彩。1.0版本將資料集擴充套件到1000萬張影象,解析度提高到1536×1536。
儘管他們將批次大小降低到128,但他們引入了複雜的標籤操作策略和註冊令牌,這些都是定義該模型出色效能的基本變化。
2.0版本的最終完善階段更進一步。使用2000萬張同樣高解析度的影象,但批次大小增加到512,團隊引入了多標題方法,大大提高了文字-影象對應關係。
結果是有史以來最好的waifu生成器,具有良好的微調能力、提示遵從性、不錯的美學和高質量輸出。
對於更擅長技術的人來說,Illustrious的開發者還引入了許多有趣的技術,如"無dropout令牌"方法,確保在訓練過程中永遠不會排除特定的令牌;實施準暫存器令牌,使模型能夠處理未知或奇怪的概念;餘弦退火排程器,用於學習率;多級dropout系統和輸入擾動噪聲增強,將一個簡單的AI模型轉變為強大的模型。
Illustrious不需要任何額外的步驟就可以執行。
安裝過程與任何其他SDXL模型相同。下載檢查點並將其放在相應的資料夾中,具體取決於您使用的UI。
Windows和Linux
MacOS
Mac使用者有類似的路徑。但是,一些流行的macOS導向UI需要額外的步驟。
一旦模型載入完成,有三件事需要考慮。
有許多模型可供選擇,它們都專注於不同的風格、美學和特徵。
甚至還有像Noob AI這樣的通用模型,它們使用Illustrious作為基礎,正被微調者用來構建自己的模型。
但是,以下是我們針對不同需求的首選。這些在提示理解、輸出質量和易用性方面都很出色。所有樣本都來自Civit AI社群,版權免費。
連結: Mistoon_Anime - v1.0 Illustrious | Illustrious Checkpoint | Civitai
連結: Smooth Mix - Illustrious | Pony - Illustrious | Illustrious Checkpoint | Civitai
連結: NTR MIX | illustrious-XL | Noob-XL - XIII | Illustrious Checkpoint | Civitai
連結: THRILLustrious - v5.0 THRILLed | Illustrious Checkpoint | Civitai