伊隆·馬斯克的 Grok 2 可生成 AI 圖像——其表現如何？

08-15

本文為機器翻譯

展示原文

科技巨頭埃隆·馬斯克創辦的人工智能公司 xAI 於週三發佈了 Grok 2，這是其人工智能聊天機器人的新一代產品。最新版本將 Grok 帶入了多模式領域，擁有文本理解、實時 Twitter 分析和圖像生成等功能。

xAI 在官方聲明中表示：“我們很高興發佈 Grok-2 的早期預覽版，這比我們之前的 Grok-1.5 模型有了重大進步，具有聊天、編碼和推理方面的前沿能力。”該公司表示，Grok 2 的早期版本“表現優於 Claude 3.5 Sonnet 和 GPT-4-Turbo”。

LmSYS 是一個基於盲測和用戶偏好的大型語言模型開源排名系統，它證實了 xAI 的說法。排名更新後，Grok-2 領先於 Claude 3.5 Sonnet，僅次於 OpenAI 最新的 GPT-4o 和谷歌的Gemini 1.5 Pro。

“憑藉超過 12,000 張社區投票，[Grok 2] 在總體排行榜上獲得了第三名，甚至與 GPT-4o 匹敵！它在編碼（#2）、難題（#4）和數學（#2）方面表現出色，”LmSYS 在推特上報道。

值得注意的是，新款 Grok 2 及其速度更快、功能更少的“迷你”版本僅在 X（又名 Twitter）上供 X Premium+ 用戶使用，價格為每月 16 美元或每年 168 美元。

xAI 表示，“Grok-2 和 Grok-2 mini 目前都在 X 上處於測試階段”，但我們只能訪問 mini 版本，因此這可能是一個逐步推出的過程。此外，該平臺短暫停止生成圖像，表明存在服務上限或服務器可能過載。無論哪種情況都可能對 AI 藝術高級用戶構成不利影響。

我們嘗試了 Grok 2 的圖像生成器，第一印象並不好，輸出結果看起來平淡無奇。然而，我們改進了提示技術，幾代之後，情況有了很大改善。

我們從這個開始：

然而，通過將 SDXL 風格的美學元素（使用逗號分隔的特定關鍵字）與自然語言場景描述（類似於Flux或 Dall-E 3 方法）相結合，我們在我們的一代中解鎖了更高水平的真實感，最終看起來像這樣：

還不錯... 可以更好，但一點也不差。

在 Grok 進入圖像生成領域之前，MidJourney、 Flux、Ideogram、Leonardo 和 MidJourney 一直在爭奪最佳圖像生成器的頭把交椅，每個模型在不同類別中表現出色。因此，我們根據每個工具最擅長的領域，在特定任務中將其與領先者進行了對比。

這是我們的看法，但您可以自行判斷。

提示：帶有 VSCO 濾鏡的寶麗來照片，1990 年，美麗的女人，夜晚，閃光燈照片，金髮碧眼，可愛，年輕的臉龐，美麗的陰影，熱帶植物，都市服裝，公寓內，數碼單反相機，手裡拿著一個用圓珠筆在筆記本上寫的牌子，上面寫著“這張照片是使用 Grok 2 Mini 由Decrypt生成的”。

Grok 2 Mini：

Grok 2 Mini 拍攝的圖像非常逼真，使用 VSCO 濾鏡有效捕捉了 20 世紀 90 年代寶麗來照片的美感。陰影、熱帶植物和城市服裝等細節都得到了準確呈現。模特避免了重大錯誤，確保圖像與提示完全一致。它將圖像框定為類似於寶麗來照片。

可能有些地方 20 世紀 90 年代的美學風格可以更加明顯，但這並不會對整體的真實感造成很大影響。

而且，字跡很完美，但看起來不像是用圓珠筆手寫的。

Flux Dev (採用 Realism LoRA)：

Flux Dev 生成了一張具有視覺吸引力的圖像，與提示非常吻合，特別是在捕捉夜間室內場景時。

然而，與 Grok 2 Mini 相比，它的錯誤更明顯，尤其是在有助於整體真實感的細節方面。VSCO 濾鏡不太明顯，手指位置很奇怪，而且看不到城市服裝。書寫中也有一個小錯誤，但字體看起來更自然。

獲勝者： Grok 2 Mini 憑藉其出色的真實感、對細節的關注以及最少的錯誤而在該類別中獲勝。

但是，需要特別注意的是，需要特定的關鍵字才能達到這種真實感。如果省略這些關鍵字，Grok 2 Mini 的水平將與 MidJourney v5 相當。所以要小心

提示：帶有 VSCO 濾鏡的寶麗來照片，1990 年，美麗的女人，夜晚，閃光照片，金髮碧眼，可愛，年輕的臉龐，美麗的陰影，熱帶植物，都市服裝，公寓內，數碼單反相機，手裡拿著一個用圓珠筆在筆記本上寫的牌子，上面寫著“Emerge by Decrypt是人工智能、科技、生物黑客和所有這些東西的最佳來源。請閱讀我們的文章。”

Grok 2 Mini：

Grok 2 Mini 在這一類別中表現出色，生成的文本錯誤更少，確保信息清晰且與圖像完美融合。該模型在有效整合長文本的同時，保持了場景的真實感。

手寫美觀度可能還有一點改進空間，但這只是個小問題。唯一的錯誤是少了一個詞：“the best source for AI”。

Flux專業版:

Flux Pro 也能很好地生成文本，但在清晰度或集成度方面表現較差，與 Grok 2 Mini 相比，錯誤更加明顯。

文本生成中的錯誤更加明顯，影響了圖像的整體效果。它生成了偽像，並且漏掉了一些單詞。

獲勝者：Grok 2 Mini 在文本生成方面獲勝，處理長文本時錯誤更少，並且保持了整體的真實感。

提示：一男一女在一家未來主義風格的餐廳裡共進晚餐，插畫風格類似文森特·梵高。餐廳的招牌上寫著“歡迎來到Decrypt的 Emerge”。

Grok 2 Mini：

Grok 2 Mini 試圖捕捉梵高的風格，同時融入提示中的未來主義元素。梵高的風格僅在外面的夜空中可見，但構圖的主要元素與他的風格完全不同。

總體而言，梵高的風格可能未能令人信服地複製，因為它缺乏其作品獨特的筆觸和色調。

萊昂納多：

達芬奇在複製梵高風格方面表現得更好，筆觸更精準，色彩更鮮豔。

未來元素的呈現方式可能存在一些細微差異，但藝術風格是重點，而且執行得很好。

獲勝者：達芬奇憑藉對梵高藝術風格的出色複製而贏得該類別的勝利。

提示：一隻狗站在一隻貓上面，以高度逼真的風格呈現，對毛皮紋理和光線的刻畫非常細緻。左邊是一個破舊的復古未來主義機器人，帶有破裂的模擬屏幕，屏幕上用褪色的橙色像素顯示“Emerge”字樣。右邊是一個令人毛骨悚然的復古裝扮醫生，戴著防毒面具，手裡拿著一個復古風格的注射器，注射器裡冒著一絲蒸汽。背景融合了新興技術的元素，但具有復古的 1970 年代風格的美感：破舊的顆粒狀 DNA 螺旋、印在泛黃紙張上的二進制代碼、老式太空探索設備，以及破舊的復古未來主義電子產品。

Grok 2 Mini：

Grok 2 Mini 嘗試很好地處理複雜場景，確保元素之間的空間關係合乎邏輯且在視覺上連貫，但未能將所有元素整合到同一場景中。我們沒有看到狗在貓上面，而是看到貓在顯示器上面。

缺乏更寬的圖像比例可能會影響其功能。此外，當複雜場景中需要某些特定元素時，無法正確引導或影響 Grok 的 LLM 在生成圖像之前所做的快速增強或解釋，這是一個缺點。

表意文字：

Ideogram 的空間意識非常出色，確保所有元素都正確定位並融入場景。在物體的排列和交互方面，對細節的關注非常出色。

當然，紋理或燈光方面存在一些小瑕疵，而且這些元素的放置方式更像是拼貼畫，而不是 Grok 2 mini 所追求的無縫、合乎邏輯的融合。然而，這對於整體空間精度來說是次要的。

獲勝者： Ideogram 憑藉其卓越的空間意識和構圖獲勝。

Grok 2 Mini 成功生成了唐納德·特朗普和卡馬拉·哈里斯等政治人物的圖像，展現了更高的靈活性。即使道德或法律限制可能會阻礙其他模型生成圖像，它也可以生成圖像。

事實上，對於一個專有模型來說，這一點非常獨特，以至於 X 充斥著可疑的例子，比如生成喬治·布什吸毒的圖像，或者特朗普和哈里斯即將駕駛飛機撞向紐約世貿中心雙子塔的圖像。許多圖像都包括迪士尼和任天堂等公司的受版權保護的角色。

我們並沒有走那麼遠，而是毫無問題地產生了一位熱愛加密貨幣的哈里斯副總統：

其他模型，如 MidJourney 和 ChatGPT，則遵守更嚴格的道德標準。它們拒絕生成政治人物圖像或其他版權敏感內容。這種方法確保遵守法律框架和道德考量，從而降低濫用風險。

優勝者： Grok 2 Mini 在功能方面勝出，因為它可以生成更廣泛的圖像，包括已知人物。然而，對於道德內容生成，MidJourney 和 ChatGPT 更可取。

一般而言，所有專有模型大多會針對性、血腥和其他類型的貶義或敏感內容進行審查。對於該特定用例，最佳解決方案是使用開源模型的微調版本或第三方組件（如 LoRA、Lycoris）以及改變開源模型（如 Stable Diffusion 或Flux）功能的嵌入。

MidJourney 對裸露和暴力有更明確的限制。它可以在某些提示下生成輕微的裸露或暴力圖像，但這些情況通常是受控制的，不會跨越道德界限，而且大多是權宜之計或隨機的。

與近源模型相比，Grok 2 Mini 在功能方面更勝一籌，因為它能夠生成更廣泛的內容，包括未經審查的內容。然而，它無法與 Stable Diffusion 及其極高的可定製性相抗衡。

根據我們的初步測試，Grok 2 Mini 在文本生成方面的表現優於其競爭對手，因此可以將其視為該類別的總體贏家。

只要使用特定關鍵詞正確提示，它也可能是實現真實性的最佳模型，因為單詞位置似乎在輸出中起著重要作用。那些尋求更多真實性但又不想提示太具體的用戶可能會選擇 MidJourney 或Flux。

Grok 2 Mini 在處理需要特定創意元素的複雜構圖或藝術圖像方面確實很差，因此對於更專業的用戶來說，這可能是一個缺點。

Leonardo 在藝術風格上仍然佔據優勢，而 Ideaogram 在空間意識上處於領先地位。在無審查生成方面，Stable Diffusion 仍然是王者，而對於那些尋求具有出色文本功能、真實感和自然快速理解的最佳整體本地和開源圖像生成器的人來說， Flux可能是更好的選擇。

“最佳”模型的選擇取決於手頭任務的具體要求，對於特定類型的真實感、文本密集型場景和敏感生成，Grok 2 Mini 是首選。對於其他任何事情，都有更好的模型。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論