伊隆·馬斯克的 Grok 2 可生成 AI 圖像——其表現如何?

avatar
Decrypt
08-15
本文為機器翻譯
展示原文

科技巨頭埃隆·馬斯克創辦的人工智能公司 xAI 於週三發佈了 Grok 2,這是其人工智能聊天機器人的新一代產品。最新版本將 Grok 帶入了多模式領域,擁有文本理解、實時 Twitter 分析和圖像生成等功能。

xAI 在官方聲明中表示:“我們很高興發佈 Grok-2 的早期預覽版,這比我們之前的 Grok-1.5 模型有了重大進步,具有聊天、編碼和推理方面的前沿能力。”該公司表示,Grok 2 的早期版本“表現優於 Claude 3.5 Sonnet 和 GPT-4-Turbo”。

LmSYS 是一個基於盲測和用戶偏好的大型語言模型開源排名系統,它證實了 xAI 的說法。排名更新後,Grok-2 領先於 Claude 3.5 Sonnet,僅次於 OpenAI 最新的 GPT-4o 和谷歌的Gemini 1.5 Pro。

“憑藉超過 12,000 張社區投票,[Grok 2] 在總體排行榜上獲得了第三名,甚至與 GPT-4o 匹敵!它在編碼(#2)、難題(#4)和數學(#2)方面表現出色,”LmSYS 在推特上報道。

值得注意的是,新款 Grok 2 及其速度更快、功能更少的“迷你”版本僅在 X(又名 Twitter)上供 X Premium+ 用戶使用,價格為每月 16 美元或每年 168 美元。

xAI 表示,“Grok-2 和 Grok-2 mini 目前都在 X 上處於測試階段”,但我們只能訪問 mini 版本,因此這可能是一個逐步推出的過程。此外,該平臺短暫停止生成圖像,表明存在服務上限或服務器可能過載。無論哪種情況都可能對 AI 藝術高級用戶構成不利影響。

我們嘗試了 Grok 2 的圖像生成器,第一印象並不好,輸出結果看起來平淡無奇。然而,我們改進了提示技術,幾代之後,情況有了很大改善。

我們從這個開始:

然而,通過將 SDXL 風格的美學元素(使用逗號分隔的特定關鍵字)與自然語言場景描述(類似於Flux或 Dall-E 3 方法)相結合,我們在我們的一代中解鎖了更高水平的真實感,最終看起來像這樣:

還不錯... 可以更好,但一點也不差。

在 Grok 進入圖像生成領域之前,MidJourney、 Flux、Ideogram、Leonardo 和 MidJourney 一直在爭奪最佳圖像生成器的頭把交椅,每個模型在不同類別中表現出色。因此,我們根據每個工具最擅長的領域,在特定任務中將其與領先者進行了對比。

這是我們的看法,但您可以自行判斷。

提示:帶有 VSCO 濾鏡的寶麗來照片,1990 年,美麗的女人,夜晚,閃光燈照片,金髮碧眼,可愛,年輕的臉龐,美麗的陰影,熱帶植物,都市服裝,公寓內,數碼單反相機,手裡拿著一個用圓珠筆在筆記本上寫的牌子,上面寫著“這張照片是使用 Grok 2 Mini 由Decrypt生成的”。

Grok 2 Mini:

Grok 2 Mini 拍攝的圖像非常逼真,使用 VSCO 濾鏡有效捕捉了 20 世紀 90 年代寶麗來照片的美感。陰影、熱帶植物和城市服裝等細節都得到了準確呈現。模特避免了重大錯誤,確保圖像與提示完全一致。它將圖像框定為類似於寶麗來照片。

可能有些地方 20 世紀 90 年代的美學風格可以更加明顯,但這並不會對整體的真實感造成很大影響。

而且,字跡很完美,但看起來不像是用圓珠筆手寫的。

Flux Dev (採用 Realism LoRA):

Flux Dev 生成了一張具有視覺吸引力的圖像,與提示非常吻合,特別是在捕捉夜間室內場景時。

然而,與 Grok 2 Mini 相比,它的錯誤更明顯,尤其是在有助於整體真實感的細節方面。VSCO 濾鏡不太明顯,手指位置很奇怪,而且看不到城市服裝。書寫中也有一個小錯誤,但字體看起來更自然。

獲勝者: Grok 2 Mini 憑藉其出色的真實感、對細節的關注以及最少的錯誤而在該類別中獲勝。

但是,需要特別注意的是,需要特定的關鍵字才能達到這種真實感。如果省略這些關鍵字,Grok 2 Mini 的水平將與 MidJourney v5 相當。所以要小心

提示:帶有 VSCO 濾鏡的寶麗來照片,1990 年,美麗的女人,夜晚,閃光照片,金髮碧眼,可愛,年輕的臉龐,美麗的陰影,熱帶植物,都市服裝,公寓內,數碼單反相機,手裡拿著一個用圓珠筆在筆記本上寫的牌子,上面寫著“Emerge by Decrypt是人工智能、科技、生物黑客和所有這些東西的最佳來源。請閱讀我們的文章。”

Grok 2 Mini:

Grok 2 Mini 在這一類別中表現出色,生成的文本錯誤更少,確保信息清晰且與圖像完美融合。該模型在有效整合長文本的同時,保持了場景的真實感。

手寫美觀度可能還有一點改進空間,但這只是個小問題。唯一的錯誤是少了一個詞:“the best source for AI”。

Flux專業版:

Flux Pro 也能很好地生成文本,但在清晰度或集成度方面表現較差,與 Grok 2 Mini 相比,錯誤更加明顯。

文本生成中的錯誤更加明顯,影響了圖像的整體效果。它生成了偽像,並且漏掉了一些單詞。

獲勝者:Grok 2 Mini 在文本生成方面獲勝,處理長文本時錯誤更少,並且保持了整體的真實感。

提示:一男一女在一家未來主義風格的餐廳裡共進晚餐,插畫風格類似文森特·梵高。餐廳的招牌上寫著“歡迎來到Decrypt的 Emerge”。

Grok 2 Mini:

Grok 2 Mini 試圖捕捉梵高的風格,同時融入提示中的未來主義元素。梵高的風格僅在外面的夜空中可見,但構圖的主要元素與他的風格完全不同。

總體而言,梵高的風格可能未能令人信服地複製,因為它缺乏其作品獨特的筆觸和色調。

萊昂納多:

達芬奇在複製梵高風格方面表現得更好,筆觸更精準,色彩更鮮豔。

未來元素的呈現方式可能存在一些細微差異,但藝術風格是重點,而且執行得很好。

獲勝者:達芬奇憑藉對梵高藝術風格的出色複製而贏得該類別的勝利。

提示:一隻狗站在一隻貓上面,以高度逼真的風格呈現,對毛皮紋理和光線的刻畫非常細緻。左邊是一個破舊的復古未來主義機器人,帶有破裂的模擬屏幕,屏幕上用褪色的橙色像素顯示“Emerge”字樣。右邊是一個令人毛骨悚然的復古裝扮醫生,戴著防毒面具,手裡拿著一個復古風格的注射器,注射器裡冒著一絲蒸汽。背景融合了新興技術的元素,但具有復古的 1970 年代風格的美感:破舊的顆粒狀 DNA 螺旋、印在泛黃紙張上的二進制代碼、老式太空探索設備,以及破舊的復古未來主義電子產品。

Grok 2 Mini:

Grok 2 Mini 嘗試很好地處理複雜場景,確保元素之間的空間關係合乎邏輯且在視覺上連貫,但未能將所有元素整合到同一場景中。我們沒有看到狗在貓上面,而是看到貓在顯示器上面。

缺乏更寬的圖像比例可能會影響其功能。此外,當複雜場景中需要某些特定元素時,無法正確引導或影響 Grok 的 LLM 在生成圖像之前所做的快速增強或解釋,這是一個缺點。

表意文字:

Ideogram 的空間意識非常出色,確保所有元素都正確定位並融入場景。在物體的排列和交互方面,對細節的關注非常出色。

當然,紋理或燈光方面存在一些小瑕疵,而且這些元素的放置方式更像是拼貼畫,而不是 Grok 2 mini 所追求的無縫、合乎邏輯的融合。然而,這對於整體空間精度來說是次要的。

獲勝者: Ideogram 憑藉其卓越的空間意識和構圖獲勝。

Grok 2 Mini 成功生成了唐納德·特朗普和卡馬拉·哈里斯等政治人物的圖像,展現了更高的靈活性。即使道德或法律限制可能會阻礙其他模型生成圖像,它也可以生成圖像。

事實上,對於一個專有模型來說,這一點非常獨特,以至於 X 充斥著可疑的例子,比如生成喬治·布什吸毒的圖像,或者特朗普和哈里斯即將駕駛飛機撞向紐約世貿中心雙子塔的圖像。許多圖像都包括迪士尼和任天堂等公司的受版權保護的角色。

我們並沒有走那麼遠,而是毫無問題地產生了一位熱愛加密貨幣的哈里斯副總統:

其他模型,如 MidJourney 和 ChatGPT,則遵守更嚴格的道德標準。它們拒絕生成政治人物圖像或其他版權敏感內容。這種方法確保遵守法律框架和道德考量,從而降低濫用風險。

優勝者: Grok 2 Mini 在功能方面勝出,因為它可以生成更廣泛的圖像,包括已知人物。然而,對於道德內容生成,MidJourney 和 ChatGPT 更可取。

一般而言,所有專有模型大多會針對性、血腥和其他類型的貶義或敏感內容進行審查。對於該特定用例,最佳解決方案是使用開源模型的微調版本或第三方組件(如 LoRA、Lycoris)以及改變開源模型(如 Stable Diffusion 或Flux)功能的嵌入。

MidJourney 對裸露和暴力有更明確的限制。它可以在某些提示下生成輕微的裸露或暴力圖像,但這些情況通常是受控制的,不會跨越道德界限,而且大多是權宜之計或隨機的。

與近源模型相比,Grok 2 Mini 在功能方面更勝一籌,因為它能夠生成更廣泛的內容,包括未經審查的內容。然而,它無法與 Stable Diffusion 及其極高的可定製性相抗衡。

根據我們的初步測試,Grok 2 Mini 在文本生成方面的表現優於其競爭對手,因此可以將其視為該類別的總體贏家。

只要使用特定關鍵詞正確提示,它也可能是實現真實性的最佳模型,因為單詞位置似乎在輸出中起著重要作用。那些尋求更多真實性但又不想提示太具體的用戶可能會選擇 MidJourney 或Flux。

Grok 2 Mini 在處理需要特定創意元素的複雜構圖或藝術圖像方面確實很差,因此對於更專業的用戶來說,這可能是一個缺點。

Leonardo 在藝術風格上仍然佔據優勢,而 Ideaogram 在空間意識上處於領先地位。在無審查生成方面,Stable Diffusion 仍然是王者,而對於那些尋求具有出色文本功能、真實感和自然快速理解的最佳整體本地和開源圖像生成器的人來說, Flux可能是更好的選擇。

“最佳”模型的選擇取決於手頭任務的具體要求,對於特定類型的真實感、文本密集型場景和敏感生成,Grok 2 Mini 是首選。對於其他任何事情,都有更好的模型。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論