OpenAI 新推最强生图模型：精准制作资讯图表、多模态输入、品质极度逼真，内建于GPT-4o

03-26

人工智慧巨头 OpenAI 今（26）日在直播中推出迄今为止最先进的图像生成模型，内建于 GPT-4o，用户现已能直接在 ChatGPT 快速生成并编辑图像，无需再开启 DALL-E。

官方表示该功能即日起对 Pro 订阅用户（每月 200 美元）开放，并将陆续向 Plus、Team 及免费用户推出，并推送至 Sora 平台及 API 开发者。企业和教育用户也即将开放使用。

GPT-4o 产图带来更高准确度和实用性

新功能采用 GPT-4o 模型，取代原先的 DALL-E 3，具备原生图像生成与编辑能力，官方称图像品质逼真到肉眼难辨，细节丰富，甚至超越 Midjourney 等竞争对手。

与传统一次生成整个图像的扩散模型不同，GPT-4o 使用自回归技术，从左至右、由上至下类似文字书写的方式逐步生成图像。研究负责人 Gabriel Goh 向 The Verge 透露，这项技术显著提升文字渲染和绑定（binding）的能力，能更好地遵循指令，同时准确处理 10 至 20 个物件的复杂指令，远超竞争对手 5 ～ 8 个的限制。

此外，GPT-4o 在图像生成多方面实现突破：

更精确的文字渲染和文字整合：过去模型常难以生成清晰且位置准确的文字，GPT-4o 则能将将文字与图像精确融合，并整合 GPT 丰富的知识，更适合快速制作资讯图表、PTT 或海报。

多轮生成图像：一句话就能 P 图，可灵活调整长宽比，使用十六进位色码指定精确颜色或是要求去背。还可利用聊天历史，用户可互动式精修图像，保持多次生成间的一致性。

多模态输入输出（文本、影像）：GPT‑4o 可以分析和学习使用者上传的影像，将其细节无缝整合到其上下文中以引导影像生成。

多样化的风格转换：从手绘草图到高解析度写实风格，模型可灵活创建和转换，满足不同需求。

虽然生成速度稍慢于 DALL-E 3，OpenAI 强调品质提升值得这点等待。展示案例包括多格漫画（角色一致性极高）、LOGO、资讯海报和餐厅菜单设计等等，展现其商业应用潜力。

OpenAI 执行长 Sam Altman 在直播中兴奋表示：「这些图像品质令人惊叹，我几乎不敢相信它们出自 AI！这是创意自由的新高峰。」

产品负责人 Jackie Shannon 说道：「GPT-4o 拥有广泛的世界知识，用户只需简单描述如『牛顿棱镜实验』，即可获得精准标注的科学图解。」这些功能让 ChatGPT 从文字工具升级为全方位创作平台。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢