12月20日,OpenAI为期12天的发布会已步入第11天,即倒数第二天,该公司发布了MacOS桌面应用程序及其与各类应用程序的互操作性功能。这将为“代理式人工智能”(Agentic AI,或称智能体)的未来奠定基础,使ChatGPT变得更加强大,并无缝集成到用户的日常工作流程中。
在第11天的发布会上,OpenAI首席产品官凯文·韦尔(Kevin Weil)携手两位身着圣诞主题西装的同事,共同探讨了公司最新推出的MacOS桌面应用程序。他们着重强调了ChatGPT从单纯的会话助手向更为强大的代理工具的转变,这意味着ChatGPT现在能够代表用户执行更多任务,为用户带来前所未有的便捷体验。
1 首推三大功能
目前,用户已能通过MacOS桌面应用程序来查看和自动化他们的ChatGPT工作。尽管2025年还将有更多类似版本问世,但在此之前,OpenAI已率先推出了以下三大功能:
第一,借助“Work with Apps”功能,用户现在能够将ChatGPT接入更多编码应用程序,涵盖BBEdit、MatLab、Nova、Script Editor、TextMate、Android Studio、AppCode、CLion、DataGrip、GoLand、IntelliJ IDEA、PHPStorm、PyCharm、RubyMine、RustRover、WebStorm、Prompt以及Warp等。
在MacOS桌面应用的演示中,OpenAI展示了人工智能如何深入一个应用程序,获取并理解其上下文信息。一旦用户通过“Work with Apps”功能选定某个应用,ChatGPT便能立即接入,洞察应用内部,提供即时帮助。
当然,ChatGPT不仅仅是一个简单的查看工具,它依托强大的人工智能模型,能够执行多种功能。在Warp的演示中,ChatGPT不仅能捕捉用户屏幕上的内容,还能深入应用内部,浏览更多信息。例如,在处理长串代码时,ChatGPT能够实现无滚动浏览,极大地提升了工作效率。
与Windows Recall功能相比,ChatGPT更注重与应用程序的实时协同工作,而非仅仅记录和构建回忆库。在另一场演示中,OpenAI团队将ChatGPT与XCode紧密结合,使得它可以在苹果的开发应用程序中工作。用户只需简单提出请求,ChatGPT便能生成代码或解决编程难题。
值得注意的是,OpenAI还展示了ChatGPT的一项新技能:它能够将生成的代码直接嵌入XCode中,这一功能有望极大地简化工作流程。尽管在实时演示中,ChatGPT的代码尝试遭遇了两次失败,但在第三次尝试时,OpenAI团队成功让代码运行起来。
第二,对于利用ChatGPT进行写作的用户,OpenAI宣布MacOS桌面应用程序现已实现对Apple Notes、Quip和Notion的支持。在现场演示中,OpenAI团队正浏览一份文档,该文档旨在为Notion中的徒步旅行活动制定指南。
有了这个新功能,ChatGPT得以与Notion无缝协作。现场演示聚焦于文档中的特定文本段落,并设定任务为“补充这些对话要点”。此外,用户还可利用ChatGPT的搜索功能来生成回应。例如,在演示中,它根据所选文本生成了关于“诺顿皇帝(诺顿一世)”的对话要点,并附上引用及来源。
第三,除了文本选择、复制粘贴的传统操作外,MacOS桌面应用支持高级语音模式,同时能与其他应用程序协同工作。在此模式下,用户可在Apple Notes中设定“节日派对歌单”,并通过ChatGPT征询圣诞老人对候选歌曲的意见。ChatGPT甚至能指出用户的错误,如将圣诞歌曲《Frosty the Snowman》误写为《Freezy the Snowman》。
这些功能现已正式发布,用户只需确保拥有最新版本的MacOS应用程序,并订阅了ChatGPT Plus、ChatGPT Pro、ChatGPT Team、ChatGPT Enterprise或ChatGPT Edu中的任一服务,即可立即体验。
在隐私保护方面,OpenAI特别强调,ChatGPT仅会在用户手动触发的情况下与应用程序进行交互。一旦该功能被激活,用户将明确知晓哪些内容将被附加到消息中,从而有效缓解隐私方面的担忧。
2 又曝AGI彩蛋
自美国当地时间12月5日起,OpenAI开启了一个密集的新功能发布周期,计划在接下来的12天内通过12场直播活动陆续推出新产品和功能。在此之前,OpenAI已经陆续发布了多项创新,包括ChatGPT Pro计划、强化微调技术、Sora、交互界面Canvas,高级语音视觉功能、Projects功能、ChatGPT搜索、满血版o1模型、通过API向第三方开发者开放大模型o1系列以及通过电话和WhatsApp与ChatGPT互动等。
随着发布会接近尾声,人们对于AGI(通用人工智能)的关注也愈发高涨。OpenAI在第11天发布会最后表示:“在第12天,我们准备了极其特别的内容,千万不要错过哦!”
在演示屏幕的一角,可以看到名为“AGI_Interface.swift”的文件夹。这已经不是过去12天里首次出现此类惊喜了。几天前,OpenAI还揭晓了一个名为“超级秘密AGI”的日历活动彩蛋,这无疑进一步提升了人们对这12天系列公告的期待,大家纷纷猜测这些公告是否在共同描绘一幅通往通用智能的宏伟蓝图。
OpenAI还透露,ChatGPT的Windows应用程序也将很快发布。但更令人震惊的消息是,他们确认了一个新智能体的存在,并预计将于2025年发布。OpenAI表示:“随着我们的模型变得越来越强大,ChatGPT将展现出越来越强的自主性。”
几周前,有传闻称OpenAI正在研发一款名为“Operator”的代理式人工智能,而该公司在第11天的发布活动上仅对这一计划进行了确认。或许,这一举动背后有着来自竞争对手的压力影响。
近期,谷歌宣布了Project Mariner项目,该智能体能够代表用户在网页浏览器选项卡上进行导航并执行操作。同样,微软也推出了Copilot Vision功能,它能在用户的网络浏览器中查看内容并提供相关信息。当然,Anthropic更早之前发布了Computer Use功能,它在时间上领先于其他同类工具。
现在,OpenAI的12天系列活动仅剩最后一天,而他们似乎将最精彩的部分留到了最后——一个全新且强大的前沿模型即将亮相。我们将拭目以待,看看OpenAI究竟带来了什么新产品,以及这个新模型与之前的o1模型有何不同。
值得一提的是,一些基准测试已经表明,o1模型是迄今为止最强大的人工智能模型之一,甚至在编码任务方面超越了Claude 3.5。近日,X平台的一位用户据称发现了GPT-4.5模型,尽管该模型目前仅提供有限的预览功能。
现在,所有的目光都聚焦在OpenAI身上,大家都翘首以待,看他们在发布会活动的最后一天将会带来怎样的惊喜。
本文来自微信公众号“腾讯科技”,作者:腾讯科技,编译:金鹿,36氪经授权发布。