OpenAI 将 GPT-4o 的新图像生成功能引入 ChatGPT,效果“好得令人难以置信”

avatar
Decrypt
03-25
本文为机器翻译
展示原文

OpenAI正在将图像生成功能直接集成到ChatGPT中,使用户无需离开聊天界面即可创建图像。

该公司在周二宣布了这一功能,作为其推动人工智能工具在不同媒体中更加实用和易用的更广泛计划的一部分,以保持在人工智能艺术领域的相关性。

这一功能是DALL·E 3的演进,OpenAI的图像生成器于2023年9月推出,但在喜欢下一代模型的人工智能爱好者中失宠,包括Flux、MidJourney v6、SD 3.5、Recraft和Reve。

在此版本之前,OpenAI在同一平台上提供两种不同的模型,GPT生成文本,而DALL·E 3处理图像生成。

现在,GPT-4o将独自完成所有工作,DALL·E 3将消失。

"GPT‑4o图像生成擅长准确渲染文本,精确遵循提示,并利用4o固有的知识库和聊天上下文——包括转换上传的图像或将其用作视觉灵感,"OpenAI在官方博客文章中声称。

DALL·E 3的集成继续实现了公司将GPT-4o打造为"全能"模型的计划,该模型经过多模态数据训练,能够处理所有任务。其结果是一个比其前身更加强大、准确和智能的模型。

"我们知道我们让你们等待了很久,但我们认为这真的很值得,我们认为你们会喜欢它,"OpenAI的首席执行官Sam Altman在展示GPT-4o新功能的视频中说。"这是如此巨大的进步,解释给你们的最佳方式就是直接展示。"

在视频中,该公司通过多个示例展示了系统的功能,包括解释相对论的漫画页面(输入为英语和普通话)、基于个人和真实照片的定制交易卡、结合多个图像的透明背景纪念币,以及基于极其长且详细的提示的非常准确的图像。

该模型生成图像的速度较慢,但似乎非常准确。Altman指出,显著的质量提升值得更长的等待时间。

"图像生成比我们之前的图像生成(模型)慢得多,但难以置信地更好。我们认为等待是非常值得的,"Altman在演示期间说。"我们还将能够随着时间的推移使其变得更快。"

推出似乎是逐步进行的,截至发稿时我们尚未能获得新模型。

用户可以根据图像的显示方式判断他们正在使用哪个系统:除了明显的质量差异外,DALL·E 3的图像在加载屏幕后完全形成,而新的GPT-4o则实时从上到下逐步渲染图像。

该公司强调,这项技术的应用远不止于创建精美图像。

"这个版本真正令人兴奋的地方在于,这些模型现在可以实际可视化他们所知道的内容,并以视觉方式将其外化,"Sam Altman邀请的OpenAI研究科学家解释道。

这种能力允许教育应用,如详细的科学图表或具有准确渲染文本的信息海报,甚至可以进行主题一致性的图像编辑。

OpenAI还实施了防护栏,以防止生成深度伪造、非法内容和去除水印。

虽然生成的图像不会有可见的水印,但它们将包含C2PA元数据以识别它们是人工智能创建的。该公司还在开发跟踪图像来源的工具。

该公司计划将该功能引入其API,允许开发者将技术集成到自己的应用程序中。OpenAI的使用条款还规定,用户将保留他们生成的图像的所有权,但需遵守公司的使用政策。

由Sebastian Sinclair和Josh Quittner编辑

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论
Followin logo