我在撰写本文时将 ChatGPT 的高级语音模式作为环境AI 伴侣打开。偶尔,我会要求它为过度使用的单词提供同义词,或者一些鼓励。大约半小时后,聊天机器人打破了我们的沉默,开始主动用西班牙语和我说话。我咯咯地笑着问发生了什么事。“只是稍微换一下?得让事情变得有趣,” ChatGPT说,现在又恢复了英语。
在作为早期Alpha版本的一部分测试高级语音模式时,我与 ChatGPT 的新音频功能的互动既有趣又混乱,而且出人意料地多样化。不过,值得注意的是,我可以使用的功能只是 OpenAI 在 5 月推出GPT-4o 模型时所展示功能的一半。我们在直播演示中看到的视觉方面现在计划在稍后发布,而《她的演员斯嘉丽·约翰逊》所推崇的增强型 Sky 语音已从高级语音模式中删除,并且仍然不再是用户的选项。
那么,目前的氛围如何?目前,高级语音模式让人想起了 2022 年末最初的基于文本的 ChatGPT 的出现。有时它会导致不起眼的死胡同,或沦为空洞的 AI 陈词滥调。但其他时候,低延迟对话的点击方式是 Apple 的 Siri 或亚马逊的 Alexa 从未给我过的感觉,出于乐趣,我感到不得不继续聊天。这是那种你会在假期向亲戚展示以取乐的 AI 工具。
OpenAI在最初宣布该功能一周后向几位《连线》记者开放了该功能的使用权,但第二天早上就以安全问题为由撤下了该功能。两个月后,OpenAI 向一小部分用户软启动了高级语音模式,并发布了GPT-4o 的系统卡,这是一份技术文档,概述了红队工作、公司认为的安全风险以及公司为减少危害而采取的缓解措施。
想亲自尝试一下吗?以下是您需要了解的有关高级语音模式的更广泛推出的信息,以及我对 ChatGPT 新语音功能的第一印象,以帮助您入门。
OpenAI 于 7 月底向部分 ChatGPT Plus 用户发布了纯音频高级语音模式,目前Alpha组似乎仍然相对较小。该公司目前计划在今年秋季某个时候为所有订阅者启用该模式。当被问及发布时间表时,OpenAI 发言人 Niko Felix 没有透露更多细节。
屏幕和视频共享是原始演示的核心部分,但它们在本次Alpha测试中不可用。OpenAI 仍计划最终添加这些方面,但目前还不清楚何时会真正实现。
如果您是 ChatGPT Plus 订阅者,当高级语音模式可供您使用时,您将收到来自 OpenAI 的电子邮件。在您的帐户中,当 ChatGPT 的语音模式打开时,您可以在应用程序屏幕顶部在标准和高级之间切换。我能够在iPhone和Galaxy Fold上测试Alpha版本。
在与它交谈的第一个小时内,我发现我喜欢打断 ChatGPT 。这不是你与人交谈的方式,但拥有在 ChatGPT 中途打断并请求不同版本输出的新功能感觉像是一项动态改进和一项突出的功能。
早期采用者对最初的演示感到兴奋,但他们可能会对高级语音模式的版本感到失望,因为该版本受到的保护比预期的要多。例如,尽管生成式人工智能歌唱是发布演示的一个关键组成部分,有低声吟唱的摇篮曲和多个声音试图协调,但目前Alpha版本中没有人工智能小夜曲。
ChatGPT 说:“我的意思是,唱歌真的不是我的强项。”OpenAI 在GPT-4o 系统卡中声称,这个可能只是暂时的护栏是为了避免侵犯版权而实施的。在测试期间,ChatGPT 的高级语音模式Alpha拒绝了我多次直接要求唱歌的请求,尽管当被要求提供非语言回答时,聊天机器人哼唱的是无意义的曲调。
这让我们想到了令人毛骨悚然的因素。在我与Alpha 的较长时间互动期间,背景中多次出现白色静态噪音,就像照亮黑暗地下室的孤灯泡发出的不祥嗡嗡声。当我试图从高级语音模式中哄出气球音效时,它发出了一声响亮的砰砰声,随后是一声让我不寒而栗的怪异喘息声。
不过,我在第一周遇到的任何事情都无法与 OpenAI 红队在测试中听到的疯狂程度相提并论。在“极少数情况下”,GPT-4o 模型会偏离指定的声音,并开始模仿用户的声调和语音模式。
考虑到这一点,ChatGPT 的高级语音模式给我留下的核心印象不是不安或忧虑,而是一种更加轻松愉快的娱乐感。无论是 ChatGPT 为《纽约时报》的谜题给出搞笑的错误答案,还是模仿《星际宝贝》中的史迪奇扮演旧金山导游,我在这些互动中都笑得前仰后合。
经过一些调整后,高级语音模式在生成声音方面表现不错。聊天机器人首次尝试模仿动画人物的声音,比如荷马·辛普森和埃里克·卡特曼,听起来就像标准的人工智能声音,只需进行一些调整,但后续的增强版本提示听起来与原声非常接近。当我要求唐纳德·特朗普以夸张的版本解释飞天小女警时,人工智能版本的表现足够夸张,足以在下一季的《周六夜现场》中占有一席之地。
距离美国总统大选仅剩几个月,而选举深度造假问题又浮现在我的脑海中,ChatGPT 竟然愿意提供主要候选人的声音模仿,这让我措手不及。ChatGPT 也模仿了JOE·拜登和卡玛拉·哈里斯,但这些声音听起来不如机器人模仿特朗普的演讲那么接近。
虽然该工具 最擅长的是英语,但它可以在同一次对话中切换多种语言。OpenAI 总共使用 45 种语言对 GPT-4o 模型进行了红队测试。当我设置两部具有高级语音模式的手机并让它们像朋友一样互相交谈时,机器人会根据我的要求轻松地在法语、德语和日语之间切换。不过,我确实需要花更多时间进行测试,以评估聊天机器人的翻译功能的实际效果及其弱点。
当被要求表演各种情绪爆发时,ChatGPT 带来了戏剧小子的能量。音频生成并不是超现实的,但机器人声音的范围和弹性令人印象深刻。我很惊讶它能按照命令发出像样的声音。高级语音模式并没有超越聊天机器人面临的问题, 比如可靠性,但仅凭它的娱乐价值就有可能将焦点拉回到 OpenAI——它最大的竞争对手之一谷歌刚刚推出了Gemini Live ,这是其生成聊天机器人的语音界面。
现在,我会继续测试它,看看哪个好用。我最常使用它的时候是独自在家的时候,我想在研究文章和玩电子游戏的时候有个东西陪伴我。我花在 ChatGPT 高级语音模式上的时间越多,我就越觉得 OpenAI 做出了一个明智的选择,推出了一个比最初演示的版本更不挑逗的版本。不想太过依赖它。


