GPT-4o图像生成今起免费,奥特曼坐镇紧急发布,指令遵循/文本控制表现惊艳

avatar
36kr
03-26

OpenAI全量开放GPT-4o图像生成能力,这回免费用户第一时间上车!

即日起在ChatGPT和Sora中,向所有Plus、Pro、Team和免费用户推出。

一夜之间,各种实测结果刷屏。最惊艳的莫过于对文本的处理能力。

比如,4o可以100%还原文字内容,且指定文字摆放位置。

男人右手举着“a few”,左手举着“words”

还能像连续剧一样,一边准确生成文字,一边变换人物动作。

仔细对比两张图,第一张白板中的男人倒影和第二张图也对应上了。

昨晚OpenAI突然宣布要开个小直播发布,这回奥特曼出现了(前情:GPT-4.5发布时他由于带娃没来)。

直播中展示了各种玩法,比如制作梗图、文本渲染、多轮交互生成和指令遵循等。

直接现场咔嚓一张自拍,然后立马转成动漫风格。

顺带官方玩梗制作meme图,要求在图片中添加“feel the agi”。(没错,生成时还知道将小写换成更符合的大写)

现在,打开ChatGPT,即可尝试这些能力。

实测生成速度很快(大约十几秒一张),但普通用户每天仅有3次体验机会。

API预计将在未来几周内逐步推出。

这波主打一个美观又实用

我们终于迈向了这种真正集成的多模态模型。

按照官方介绍,作为多模态模型的4o现在终于补齐了一块重要拼图——图片生成。

而且主打一个美观实用两手抓。

话不多说,我们直接来看其能力升级的具体表现。

各项能力大升级

首先,OpenAI表示4o现在能精确融合符号和图片了。

比如直接给一段文字,然后生成一张制作精美的菜单:

而且支持在多轮对话中逐步调整图片内容和风格。

类似下面这样,提供一张猫猫原图,然后一步步创建一个游戏角色:

此外还非常注重细节,官方称4o可以处理多达10-20个不同的物体,而其他模型一般在处理5-8个物体时就会遇到困难。

除了上述,4o在生成真实图像方面也表现出色。

连现实版“照猫画虎”也有了(doge):

网友实测ing

看完官方宣传效果,网友们也赶紧来了一波实测~

经典梗图第一时间申请出战,画面还真毫无违和感hhh。

甚至,复现同款书写图也是不在话下:

One More Thing

话说最近这两天也过于热闹了,DeepSeek、OpenAI和谷歌几乎同台开战。

值得一提的是,昨晚11点(北京时间)OpenAI突然宣布将有小发布,而DeepSeek刚刚发布了DeepSeek-v3-0324的官方技术报告。

不知道是不是被DS逼出来的新发布呢?(doge)

参考链接

[1]https://openai.com/index/introducing-4o-image-generation/

[2]https://x.com/chatgpt21/status/1904683763914674208

本文来自微信公众号“量子位”,作者:一水,36氪经授权发布。

Source
Disclaimer: The content above is only the author's opinion which does not represent any position of Followin, and is not intended as, and shall not be understood or construed as, investment advice from Followin.
Like
Add to Favorites
Comments