ChatGPT 现在可以实时观察你并与你互动

12-14

本文为机器翻译

展示原文

OpenAI 在周四揭开了 ChatGPT 长期承诺的视频功能的面纱,让用户可以用手机对准物体进行实时 AI 分析,这是一项自 5 月首次演示以来一直处于搁置状态的功能。

此前,您可以输入文本、图表、语音或静止照片,并与 GPT 进行交互。这项于周四晚些时候发布的功能允许 GPT 实时观察您,并以对话方式提供反馈。例如,在我的测试中,这种模式能够解决数学问题、提供食谱、讲故事,甚至将自己变成我女儿的新朋友,与她互动时烹饪煎饼,给出建议并通过不同游戏鼓励她的学习过程。

这一发布恰逢谷歌展示了其基于新推出的 Gemini 2.0 的摄像头驱动 AI 助手的自己版本的次日。Meta 也在这个沙盒里玩耍,拥有自己的可以通过手机摄像头看和聊天的 AI。

不过,ChatGPT 的新功能并非人人都能使用。只有 Plus、Team 和 Pro 订阅用户才能访问 OpenAI 称之为"带有视觉功能的高级语音模式"。Plus 订阅费用为每月 20 美元,Pro 层级为每月 200 美元。

"我们很高兴宣布,我们正在将视频引入高级语音模式,这样您就可以将实时视频和实时屏幕共享纳入与 ChatGPT 的对话中,"OpenAI 首席产品官凯文·韦尔在周四的视频中说。

这次直播是其"OpenAI 的 12 天"活动的一部分,将在连续 12 天内展示 12 项不同的公告。到目前为止,OpenAI 已为所有用户推出了其 o1 模型,推出了每月 200 美元的 ChatGPT Pro 计划,引入了定制模型的强化微调,发布了其生成视频应用 Sora,更新了其画布功能,并通过苹果公司的苹果智能功能将 ChatGPT 发布到苹果设备。

该公司在周四的直播中给出了一瞥它的能力。用户可以激活视频模式,与聊天机器人实时互动,就像使用高级语音模式一样。聊天机器人具有出色的视觉理解能力,能够提供相关的低延迟反馈,使对话感觉自然。

到达这一步并非一帆风顺。OpenAI 最初在 4 月底承诺"在几周内"推出这些功能,但由于在高级语音模式中模仿女演员斯嘉丽·约翰逊的声音(未经她的许可)而引发争议,该功能被推迟。由于视频模式依赖于高级语音模式,这显然减缓了推出进度。

而竞争对手谷歌也没有闲着。Project Astra 本周刚刚进入 Android 上的"受信任测试者"手中,承诺提供类似的功能:一个会多种语言的 AI,可以利用谷歌的搜索和地图,并记住长达 10 分钟的对话。

不过,这一功能目前还无法广泛使用,预计将于明年初正式推出。谷歌还有更远大的 AI 模型计划,让它们能够实时执行任务,展现超越视听交互的主动行为。

Meta 也在争夺下一代 AI 互动的一席之地。其助手 Meta AI 在 9 月份亮相,展现了与 OpenAI 和谷歌新助手类似的功能,提供低延迟响应和实时视频理解。

但 Meta 正在押注使用增强现实来推动其 AI 产品,配备小型摄像头的"隐藏式"智能眼镜能够支持这些互动。Meta 称之为 Project Orion。

当前的 ChatGPT Plus 用户可以通过点击聊天栏旁边的语音图标,然后点击视频按钮来尝试新的视频功能。屏幕共享需要通过三点(即"汉堡")菜单进行额外点击。

对于急于尝试新视频功能的企业和教育 ChatGPT 用户来说,1 月份是神奇的时刻。至于欧盟用户?他们目前只能在一旁观望。

由 Andrew Hayward 编辑