伊隆·马斯克的 Grok 2 可生成 AI 图像——其表现如何？

08-15

本文为机器翻译

展示原文

科技巨头埃隆·马斯克创办的人工智能公司 xAI 于周三发布了 Grok 2，这是其人工智能聊天机器人的新一代产品。最新版本将 Grok 带入了多模式领域，拥有文本理解、实时 Twitter 分析和图像生成等功能。

xAI 在官方声明中表示：“我们很高兴发布 Grok-2 的早期预览版，这比我们之前的 Grok-1.5 模型有了重大进步，具有聊天、编码和推理方面的前沿能力。”该公司表示，Grok 2 的早期版本“表现优于 Claude 3.5 Sonnet 和 GPT-4-Turbo”。

LmSYS 是一个基于盲测和用户偏好的大型语言模型开源排名系统，它证实了 xAI 的说法。排名更新后，Grok-2 领先于 Claude 3.5 Sonnet，仅次于 OpenAI 最新的 GPT-4o 和谷歌的Gemini 1.5 Pro。

“凭借超过 12,000 张社区投票，[Grok 2] 在总体排行榜上获得了第三名，甚至与 GPT-4o 匹敌！它在编码（#2）、难题（#4）和数学（#2）方面表现出色，”LmSYS 在推特上报道。

值得注意的是，新款 Grok 2 及其速度更快、功能更少的“迷你”版本仅在 X（又名 Twitter）上供 X Premium+ 用户使用，价格为每月 16 美元或每年 168 美元。

xAI 表示，“Grok-2 和 Grok-2 mini 目前都在 X 上处于测试阶段”，但我们只能访问 mini 版本，因此这可能是一个逐步推出的过程。此外，该平台短暂停止生成图像，表明存在服务上限或服务器可能过载。无论哪种情况都可能对 AI 艺术高级用户构成不利影响。

我们尝试了 Grok 2 的图像生成器，第一印象并不好，输出结果看起来平淡无奇。然而，我们改进了提示技术，几代之后，情况有了很大改善。

我们从这个开始：

然而，通过将 SDXL 风格的美学元素（使用逗号分隔的特定关键字）与自然语言场景描述（类似于Flux或 Dall-E 3 方法）相结合，我们在我们的一代中解锁了更高水平的真实感，最终看起来像这样：

还不错... 可以更好，但一点也不差。

在 Grok 进入图像生成领域之前，MidJourney、 Flux、Ideogram、Leonardo 和 MidJourney 一直在争夺最佳图像生成器的头把交椅，每个模型在不同类别中表现出色。因此，我们根据每个工具最擅长的领域，在特定任务中将其与领先者进行了对比。

这是我们的看法，但您可以自行判断。

提示：带有 VSCO 滤镜的宝丽来照片，1990 年，美丽的女人，夜晚，闪光灯照片，金发碧眼，可爱，年轻的脸庞，美丽的阴影，热带植物，都市服装，公寓内，数码单反相机，手里拿着一个用圆珠笔在笔记本上写的牌子，上面写着“这张照片是使用 Grok 2 Mini 由Decrypt生成的”。

Grok 2 Mini：

Grok 2 Mini 拍摄的图像非常逼真，使用 VSCO 滤镜有效捕捉了 20 世纪 90 年代宝丽来照片的美感。阴影、热带植物和城市服装等细节都得到了准确呈现。模特避免了重大错误，确保图像与提示完全一致。它将图像框定为类似于宝丽来照片。

可能有些地方 20 世纪 90 年代的美学风格可以更加明显，但这并不会对整体的真实感造成很大影响。

而且，字迹很完美，但看起来不像是用圆珠笔手写的。

Flux Dev (采用 Realism LoRA)：

Flux Dev 生成了一张具有视觉吸引力的图像，与提示非常吻合，特别是在捕捉夜间室内场景时。

然而，与 Grok 2 Mini 相比，它的错误更明显，尤其是在有助于整体真实感的细节方面。VSCO 滤镜不太明显，手指位置很奇怪，而且看不到城市服装。书写中也有一个小错误，但字体看起来更自然。

获胜者： Grok 2 Mini 凭借其出色的真实感、对细节的关注以及最少的错误而在该类别中获胜。

但是，需要特别注意的是，需要特定的关键字才能达到这种真实感。如果省略这些关键字，Grok 2 Mini 的水平将与 MidJourney v5 相当。所以要小心

提示：带有 VSCO 滤镜的宝丽来照片，1990 年，美丽的女人，夜晚，闪光照片，金发碧眼，可爱，年轻的脸庞，美丽的阴影，热带植物，都市服装，公寓内，数码单反相机，手里拿着一个用圆珠笔在笔记本上写的牌子，上面写着“Emerge by Decrypt是人工智能、科技、生物黑客和所有这些东西的最佳来源。请阅读我们的文章。”

Grok 2 Mini：

Grok 2 Mini 在这一类别中表现出色，生成的文本错误更少，确保信息清晰且与图像完美融合。该模型在有效整合长文本的同时，保持了场景的真实感。

手写美观度可能还有一点改进空间，但这只是个小问题。唯一的错误是少了一个词：“the best source for AI”。

Flux专业版:

Flux Pro 也能很好地生成文本，但在清晰度或集成度方面表现较差，与 Grok 2 Mini 相比，错误更加明显。

文本生成中的错误更加明显，影响了图像的整体效果。它生成了伪像，并且漏掉了一些单词。

获胜者：Grok 2 Mini 在文本生成方面获胜，处理长文本时错误更少，并且保持了整体的真实感。

提示：一男一女在一家未来主义风格的餐厅里共进晚餐，插画风格类似文森特·梵高。餐厅的招牌上写着“欢迎来到Decrypt的 Emerge”。

Grok 2 Mini：

Grok 2 Mini 试图捕捉梵高的风格，同时融入提示中的未来主义元素。梵高的风格仅在外面的夜空中可见，但构图的主要元素与他的风格完全不同。

总体而言，梵高的风格可能未能令人信服地复制，因为它缺乏其作品独特的笔触和色调。

莱昂纳多：

达芬奇在复制梵高风格方面表现得更好，笔触更精准，色彩更鲜艳。

未来元素的呈现方式可能存在一些细微差异，但艺术风格是重点，而且执行得很好。

获胜者：达芬奇凭借对梵高艺术风格的出色复制而赢得该类别的胜利。

提示：一只狗站在一只猫上面，以高度逼真的风格呈现，对毛皮纹理和光线的刻画非常细致。左边是一个破旧的复古未来主义机器人，带有破裂的模拟屏幕，屏幕上用褪色的橙色像素显示“Emerge”字样。右边是一个令人毛骨悚然的复古装扮医生，戴着防毒面具，手里拿着一个复古风格的注射器，注射器里冒着一丝蒸汽。背景融合了新兴技术的元素，但具有复古的 1970 年代风格的美感：破旧的颗粒状 DNA 螺旋、印在泛黄纸张上的二进制代码、老式太空探索设备，以及破旧的复古未来主义电子产品。

Grok 2 Mini：

Grok 2 Mini 尝试很好地处理复杂场景，确保元素之间的空间关系合乎逻辑且在视觉上连贯，但未能将所有元素整合到同一场景中。我们没有看到狗在猫上面，而是看到猫在显示器上面。

缺乏更宽的图像比例可能会影响其功能。此外，当复杂场景中需要某些特定元素时，无法正确引导或影响 Grok 的 LLM 在生成图像之前所做的快速增强或解释，这是一个缺点。

表意文字：

Ideogram 的空间意识非常出色，确保所有元素都正确定位并融入场景。在物体的排列和交互方面，对细节的关注非常出色。

当然，纹理或灯光方面存在一些小瑕疵，而且这些元素的放置方式更像是拼贴画，而不是 Grok 2 mini 所追求的无缝、合乎逻辑的融合。然而，这对于整体空间精度来说是次要的。

获胜者： Ideogram 凭借其卓越的空间意识和构图获胜。

Grok 2 Mini 成功生成了唐纳德·特朗普和卡马拉·哈里斯等政治人物的图像，展现了更高的灵活性。即使道德或法律限制可能会阻碍其他模型生成图像，它也可以生成图像。

事实上，对于一个专有模型来说，这一点非常独特，以至于 X 充斥着可疑的例子，比如生成乔治·布什吸毒的图像，或者特朗普和哈里斯即将驾驶飞机撞向纽约世贸中心双子塔的图像。许多图像都包括迪士尼和任天堂等公司的受版权保护的角色。

我们并没有走那么远，而是毫无问题地产生了一位热爱加密货币的哈里斯副总统：

其他模型，如 MidJourney 和 ChatGPT，则遵守更严格的道德标准。它们拒绝生成政治人物图像或其他版权敏感内容。这种方法确保遵守法律框架和道德考量，从而降低滥用风险。

优胜者： Grok 2 Mini 在功能方面胜出，因为它可以生成更广泛的图像，包括已知人物。然而，对于道德内容生成，MidJourney 和 ChatGPT 更可取。

一般而言，所有专有模型大多会针对性、血腥和其他类型的贬义或敏感内容进行审查。对于该特定用例，最佳解决方案是使用开源模型的微调版本或第三方组件（如 LoRA、Lycoris）以及改变开源模型（如 Stable Diffusion 或Flux）功能的嵌入。

MidJourney 对裸露和暴力有更明确的限制。它可以在某些提示下生成轻微的裸露或暴力图像，但这些情况通常是受控制的，不会跨越道德界限，而且大多是权宜之计或随机的。

与近源模型相比，Grok 2 Mini 在功能方面更胜一筹，因为它能够生成更广泛的内容，包括未经审查的内容。然而，它无法与 Stable Diffusion 及其极高的可定制性相抗衡。

根据我们的初步测试，Grok 2 Mini 在文本生成方面的表现优于其竞争对手，因此可以将其视为该类别的总体赢家。

只要使用特定关键词正确提示，它也可能是实现真实性的最佳模型，因为单词位置似乎在输出中起着重要作用。那些寻求更多真实性但又不想提示太具体的用户可能会选择 MidJourney 或Flux。

Grok 2 Mini 在处理需要特定创意元素的复杂构图或艺术图像方面确实很差，因此对于更专业的用户来说，这可能是一个缺点。

Leonardo 在艺术风格上仍然占据优势，而 Ideaogram 在空间意识上处于领先地位。在无审查生成方面，Stable Diffusion 仍然是王者，而对于那些寻求具有出色文本功能、真实感和自然快速理解的最佳整体本地和开源图像生成器的人来说， Flux可能是更好的选择。

“最佳”模型的选择取决于手头任务的具体要求，对于特定类型的真实感、文本密集型场景和敏感生成，Grok 2 Mini 是首选。对于其他任何事情，都有更好的模型。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢