OpenAI 新推最强生图模型:精准制作资讯图表、多模态输入、品质极度逼真,内建于GPT-4o

工智慧巨头 OpenAI 今(26)日在直播中推出迄今为止最先进的图像生成模型,内建于 GPT-4o,用户现已能直接在 ChatGPT 快速生成并编辑图像,无需再开启 DALL-E。

官方表示该功能即日起对 Pro 订阅用户(每月 200 美元)开放,并将陆续向 Plus、Team 及免费用户推出,并推送至 Sora 平台及 API 开发者。企业和教育用户也即将开放使用。

GPT-4o 产图带来更高准确度和实用性

新功能采用 GPT-4o 模型,取代原先的 DALL-E 3,具备原生图像生成与编辑能力,官方称图像品质逼真到肉眼难辨,细节丰富,甚至超越 Midjourney 等竞争对手。

与传统一次生成整个图像的扩散模型不同,GPT-4o 使用自回归技术,从左至右、由上至下类似文字书写的方式逐步生成图像。研究负责人 Gabriel Goh 向 The Verge 透露,这项技术显著提升文字渲染和绑定(binding)的能力,能更好地遵循指令,同时准确处理 10 至 20 个物件的复杂指令,远超竞争对手 5 ~ 8 个的限制。

此外,GPT-4o 在图像生成多方面实现突破:

  • 更精确的文字渲染和文字整合:过去模型常难以生成清晰且位置准确的文字,GPT-4o 则能将将文字与图像精确融合,并整合 GPT 丰富的知识,更适合快速制作资讯图表、PTT 或海报。

  • 多轮生成图像:一句话就能 P 图,可灵活调整长宽比,使用十六进位色码指定精确颜色或是要求去背。还可利用聊天历史,用户可互动式精修图像,保持多次生成间的一致性。

  • 多模态输入输出(文本、影像):GPT‑4o 可以分析和学习使用者上传的影像,将其细节无缝整合到其上下文中以引导影像生成。

  • 多样化的风格转换:从手绘草图到高解析度写实风格,模型可灵活创建和转换,满足不同需求。

虽然生成速度稍慢于 DALL-E 3,OpenAI 强调品质提升值得这点等待。展示案例包括多格漫画(角色一致性极高)、LOGO、资讯海报和餐厅菜单设计等等,展现其商业应用潜力。

OpenAI 执行长 Sam Altman 在直播中兴奋表示:「这些图像品质令人惊叹,我几乎不敢相信它们出自 AI!这是创意自由的新高峰。」

产品负责人 Jackie Shannon 说道:「GPT-4o 拥有广泛的世界知识,用户只需简单描述如『牛顿棱镜实验』,即可获得精准标注的科学图解。」这些功能让 ChatGPT 从文字工具升级为全方位创作平台。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论