伊隆·马斯克的 Grok 2 可生成 AI 图像——其表现如何?

avatar
Decrypt
08-15
本文为机器翻译
展示原文

科技巨头埃隆·马斯克创办的人工智能公司 xAI 于周三发布了 Grok 2,这是其人工智能聊天机器人的新一代产品。最新版本将 Grok 带入了多模式领域,拥有文本理解、实时 Twitter 分析和图像生成等功能。

xAI 在官方声明中表示:“我们很高兴发布 Grok-2 的早期预览版,这比我们之前的 Grok-1.5 模型有了重大进步,具有聊天、编码和推理方面的前沿能力。”该公司表示,Grok 2 的早期版本“表现优于 Claude 3.5 Sonnet 和 GPT-4-Turbo”。

LmSYS 是一个基于盲测和用户偏好的大型语言模型开源排名系统,它证实了 xAI 的说法。排名更新后,Grok-2 领先于 Claude 3.5 Sonnet,仅次于 OpenAI 最新的 GPT-4o 和谷歌的Gemini 1.5 Pro。

“凭借超过 12,000 张社区投票,[Grok 2] 在总体排行榜上获得了第三名,甚至与 GPT-4o 匹敌!它在编码(#2)、难题(#4)和数学(#2)方面表现出色,”LmSYS 在推特上报道。

值得注意的是,新款 Grok 2 及其速度更快、功能更少的“迷你”版本仅在 X(又名 Twitter)上供 X Premium+ 用户使用,价格为每月 16 美元或每年 168 美元。

xAI 表示,“Grok-2 和 Grok-2 mini 目前都在 X 上处于测试阶段”,但我们只能访问 mini 版本,因此这可能是一个逐步推出的过程。此外,该平台短暂停止生成图像,表明存在服务上限或服务器可能过载。无论哪种情况都可能对 AI 艺术高级用户构成不利影响。

我们尝试了 Grok 2 的图像生成器,第一印象并不好,输出结果看起来平淡无奇。然而,我们改进了提示技术,几代之后,情况有了很大改善。

我们从这个开始:

然而,通过将 SDXL 风格的美学元素(使用逗号分隔的特定关键字)与自然语言场景描述(类似于Flux或 Dall-E 3 方法)相结合,我们在我们的一代中解锁了更高水平的真实感,最终看起来像这样:

还不错... 可以更好,但一点也不差。

在 Grok 进入图像生成领域之前,MidJourney、 Flux、Ideogram、Leonardo 和 MidJourney 一直在争夺最佳图像生成器的头把交椅,每个模型在不同类别中表现出色。因此,我们根据每个工具最擅长的领域,在特定任务中将其与领先者进行了对比。

这是我们的看法,但您可以自行判断。

提示:带有 VSCO 滤镜的宝丽来照片,1990 年,美丽的女人,夜晚,闪光灯照片,金发碧眼,可爱,年轻的脸庞,美丽的阴影,热带植物,都市服装,公寓内,数码单反相机,手里拿着一个用圆珠笔在笔记本上写的牌子,上面写着“这张照片是使用 Grok 2 Mini 由Decrypt生成的”。

Grok 2 Mini:

Grok 2 Mini 拍摄的图像非常逼真,使用 VSCO 滤镜有效捕捉了 20 世纪 90 年代宝丽来照片的美感。阴影、热带植物和城市服装等细节都得到了准确呈现。模特避免了重大错误,确保图像与提示完全一致。它将图像框定为类似于宝丽来照片。

可能有些地方 20 世纪 90 年代的美学风格可以更加明显,但这并不会对整体的真实感造成很大影响。

而且,字迹很完美,但看起来不像是用圆珠笔手写的。

Flux Dev (采用 Realism LoRA):

Flux Dev 生成了一张具有视觉吸引力的图像,与提示非常吻合,特别是在捕捉夜间室内场景时。

然而,与 Grok 2 Mini 相比,它的错误更明显,尤其是在有助于整体真实感的细节方面。VSCO 滤镜不太明显,手指位置很奇怪,而且看不到城市服装。书写中也有一个小错误,但字体看起来更自然。

获胜者: Grok 2 Mini 凭借其出色的真实感、对细节的关注以及最少的错误而在该类别中获胜。

但是,需要特别注意的是,需要特定的关键字才能达到这种真实感。如果省略这些关键字,Grok 2 Mini 的水平将与 MidJourney v5 相当。所以要小心

提示:带有 VSCO 滤镜的宝丽来照片,1990 年,美丽的女人,夜晚,闪光照片,金发碧眼,可爱,年轻的脸庞,美丽的阴影,热带植物,都市服装,公寓内,数码单反相机,手里拿着一个用圆珠笔在笔记本上写的牌子,上面写着“Emerge by Decrypt是人工智能、科技、生物黑客和所有这些东西的最佳来源。请阅读我们的文章。”

Grok 2 Mini:

Grok 2 Mini 在这一类别中表现出色,生成的文本错误更少,确保信息清晰且与图像完美融合。该模型在有效整合长文本的同时,保持了场景的真实感。

手写美观度可能还有一点改进空间,但这只是个小问题。唯一的错误是少了一个词:“the best source for AI”。

Flux专业版:

Flux Pro 也能很好地生成文本,但在清晰度或集成度方面表现较差,与 Grok 2 Mini 相比,错误更加明显。

文本生成中的错误更加明显,影响了图像的整体效果。它生成了伪像,并且漏掉了一些单词。

获胜者:Grok 2 Mini 在文本生成方面获胜,处理长文本时错误更少,并且保持了整体的真实感。

提示:一男一女在一家未来主义风格的餐厅里共进晚餐,插画风格类似文森特·梵高。餐厅的招牌上写着“欢迎来到Decrypt的 Emerge”。

Grok 2 Mini:

Grok 2 Mini 试图捕捉梵高的风格,同时融入提示中的未来主义元素。梵高的风格仅在外面的夜空中可见,但构图的主要元素与他的风格完全不同。

总体而言,梵高的风格可能未能令人信服地复制,因为它缺乏其作品独特的笔触和色调。

莱昂纳多:

达芬奇在复制梵高风格方面表现得更好,笔触更精准,色彩更鲜艳。

未来元素的呈现方式可能存在一些细微差异,但艺术风格是重点,而且执行得很好。

获胜者:达芬奇凭借对梵高艺术风格的出色复制而赢得该类别的胜利。

提示:一只狗站在一只猫上面,以高度逼真的风格呈现,对毛皮纹理和光线的刻画非常细致。左边是一个破旧的复古未来主义机器人,带有破裂的模拟屏幕,屏幕上用褪色的橙色像素显示“Emerge”字样。右边是一个令人毛骨悚然的复古装扮医生,戴着防毒面具,手里拿着一个复古风格的注射器,注射器里冒着一丝蒸汽。背景融合了新兴技术的元素,但具有复古的 1970 年代风格的美感:破旧的颗粒状 DNA 螺旋、印在泛黄纸张上的二进制代码、老式太空探索设备,以及破旧的复古未来主义电子产品。

Grok 2 Mini:

Grok 2 Mini 尝试很好地处理复杂场景,确保元素之间的空间关系合乎逻辑且在视觉上连贯,但未能将所有元素整合到同一场景中。我们没有看到狗在猫上面,而是看到猫在显示器上面。

缺乏更宽的图像比例可能会影响其功能。此外,当复杂场景中需要某些特定元素时,无法正确引导或影响 Grok 的 LLM 在生成图像之前所做的快速增强或解释,这是一个缺点。

表意文字:

Ideogram 的空间意识非常出色,确保所有元素都正确定位并融入场景。在物体的排列和交互方面,对细节的关注非常出色。

当然,纹理或灯光方面存在一些小瑕疵,而且这些元素的放置方式更像是拼贴画,而不是 Grok 2 mini 所追求的无缝、合乎逻辑的融合。然而,这对于整体空间精度来说是次要的。

获胜者: Ideogram 凭借其卓越的空间意识和构图获胜。

Grok 2 Mini 成功生成了唐纳德·特朗普和卡马拉·哈里斯等政治人物的图像,展现了更高的灵活性。即使道德或法律限制可能会阻碍其他模型生成图像,它也可以生成图像。

事实上,对于一个专有模型来说,这一点非常独特,以至于 X 充斥着可疑的例子,比如生成乔治·布什吸毒的图像,或者特朗普和哈里斯即将驾驶飞机撞向纽约世贸中心双子塔的图像。许多图像都包括迪士尼和任天堂等公司的受版权保护的角色。

我们并没有走那么远,而是毫无问题地产生了一位热爱加密货币的哈里斯副总统:

其他模型,如 MidJourney 和 ChatGPT,则遵守更严格的道德标准。它们拒绝生成政治人物图像或其他版权敏感内容。这种方法确保遵守法律框架和道德考量,从而降低滥用风险。

优胜者: Grok 2 Mini 在功能方面胜出,因为它可以生成更广泛的图像,包括已知人物。然而,对于道德内容生成,MidJourney 和 ChatGPT 更可取。

一般而言,所有专有模型大多会针对性、血腥和其他类型的贬义或敏感内容进行审查。对于该特定用例,最佳解决方案是使用开源模型的微调版本或第三方组件(如 LoRA、Lycoris)以及改变开源模型(如 Stable Diffusion 或Flux)功能的嵌入。

MidJourney 对裸露和暴力有更明确的限制。它可以在某些提示下生成轻微的裸露或暴力图像,但这些情况通常是受控制的,不会跨越道德界限,而且大多是权宜之计或随机的。

与近源模型相比,Grok 2 Mini 在功能方面更胜一筹,因为它能够生成更广泛的内容,包括未经审查的内容。然而,它无法与 Stable Diffusion 及其极高的可定制性相抗衡。

根据我们的初步测试,Grok 2 Mini 在文本生成方面的表现优于其竞争对手,因此可以将其视为该类别的总体赢家。

只要使用特定关键词正确提示,它也可能是实现真实性的最佳模型,因为单词位置似乎在输出中起着重要作用。那些寻求更多真实性但又不想提示太具体的用户可能会选择 MidJourney 或Flux。

Grok 2 Mini 在处理需要特定创意元素的复杂构图或艺术图像方面确实很差,因此对于更专业的用户来说,这可能是一个缺点。

Leonardo 在艺术风格上仍然占据优势,而 Ideaogram 在空间意识上处于领先地位。在无审查生成方面,Stable Diffusion 仍然是王者,而对于那些寻求具有出色文本功能、真实感和自然快速理解的最佳整体本地和开源图像生成器的人来说, Flux可能是更好的选择。

“最佳”模型的选择取决于手头任务的具体要求,对于特定类型的真实感、文本密集型场景和敏感生成,Grok 2 Mini 是首选。对于其他任何事情,都有更好的模型。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论