OpenAI 年终大促销之际,谷歌推出Gemini 2.0,Anthropic 推出 Claude 3.5 Haiku

avatar
Decrypt
12 小时前
本文为机器翻译
展示原文

谷歌本周发布了Gemini 2.0,其最新的AI模型拥有自主能力和多模态特征。

这次发布的一个显著特点是,谷歌将AI聊天机器人视为正在演化为AI代理 - 使用生成式AI与用户交互并实时理解和执行任务的定制软件。

"借助多模态能力的新进展,如原生图像和音频输出以及原生工具使用,我们将能够构建新的AI代理,使我们更接近通用助手的愿景,"谷歌CEO桑达尔·皮查伊表示。

该模型在多模态基础上进行了构建,具有新的原生图像生成和文本到语音能力,以及改进的推理技能。

据谷歌介绍,2.0 Flash版本在关键基准测试中的表现优于之前的1.5 Pro版本,同时运行速度提高了一倍。

目前,该模型仅对支付谷歌高级版(与Claude和ChatGPT Plus竞争的付费订阅)的用户开放。

那些愿意动手的人可以通过访问谷歌AI工作室来获得更完整的体验。

需要注意的是,这个界面比Gemini提供的简单、直接和用户友好的UI更加复杂。

此外,它更强大但速度更慢。在我们的测试中,我们让它分析一个74K令牌长的文档,它花了近10分钟才给出响应。

不过,输出结果足够准确,没有幻觉。分析约20万令牌(近15万字)的较长文档需要更长的时间,但只要有足够的耐心,该模型就能胜任这项工作。

谷歌还实施了一项"深度研究"功能,现已在Gemini高级版中推出,利用该模型增强的推理和长上下文能力,探索复杂主题并编写报告。

这使用户能够比使用常规模型更深入地研究不同主题。然而,它基于Gemini 1.5,目前还没有基于Gemini 2.0的版本。

这项新功能使Gemini直接与Perplexity的Pro搜索、You.com的研究助手以及较不知名的BeaGo等服务竞争,提供类似的体验。不过,谷歌的服务有所不同。在提供信息之前,必须先确定最佳的任务方法。

它向用户提供一个计划,用户可以编辑它以包含或排除信息,添加更多研究材料,或提取信息片段。一旦方法论确定下来,他们就可以指示聊天机器人开始研究。到目前为止,还没有任何AI服务为研究人员提供这种程度的控制和定制性。

在我们的测试中,一个简单的提示"研究AI对人际关系的影响"触发了对十几个可靠的科学或官方网站的调查,该模型基于8个适当引用的来源产生了一份3页长的文档。这还不错。

谷歌还分享了一段视频,展示了由Gemini 2.0驱动的实验性AI助手项目Astra。Astra是谷歌对Meta AI的回应:一个能够实时与人互动的AI助手,使用智能手机的摄像头和麦克风作为信息输入,并以语音模式提供响应。

谷歌为Astra项目赋予了更广泛的功能,包括支持多语言对话并具有改进的口音识别、与谷歌搜索、镜头和地图的集成、保留10分钟对话上下文的扩展内存、长期记忆以及通过新的流式传输功能实现低延迟对话。

尽管在社交媒体上反响平平 - 谷歌的视频自发布以来只有9万次观看 - 但这一新一代模型的发布似乎在用户中获得了不错的吸引力,网络搜索量显著增加,尤其是在ChatGPT Plus大规模中断期间宣布的情况下。

谷歌本周的公告表明,它正试图与OpenAI竞争成为生成式AI行业的领导者。

事实上,其公告恰逢OpenAI的"圣诞节12天"活动期间,该公司每天都会推出一款新产品。

到目前为止,OpenAI已经推出了一款新的推理模型(o1)、一款视频生成工具(Sora)和一款每月200美元的"专业"订阅服务。

谷歌还推出了一款新的AI驱动Chrome扩展程序项目Mariner,使用代理导航网站并完成任务。在针对现实世界网络任务的WebVoyager基准测试中,Mariner作为单一代理实现了83.5%的成功率,谷歌表示。

"在过去一年里,我们一直在投资开发更多代理模型,这意味着它们可以更好地理解周围的世界,提前多步思考,并在您的监督下代表您采取行动,"皮查伊在公告中写道。

该公司计划将Gemini 2.0集成到其产品线中,从今天开始在Gemini应用程序中提供实验性访问开始。更广泛的发布将于1月份进行,包括集成到谷歌搜索的AI功能中,目前这些功能已经覆盖了超过10亿用户。

Gemini 2的发布恰逢Anthropic悄然推出了最新更新。Claude 3.5 Haiku是其AI模型系列的更快版本,在编码任务上声称有更出色的性能,在SWE-bench Verified基准测试中得分40.6%。

Anthropic仍在训练其最强大的模型Claude 3.5 Opus,预计将于2025年晚些时候发布,此前经历了一系列延迟。

谷歌和Anthropic的高级服务都定价为每月20美元,与OpenAI的基本ChatGPT Plus层相匹配。

Anthropic的Claude 3.5 Haiku被证明比Claude 3 Sonnet(Anthropic上一代中型号模型)快得多、成本更低、性能更强,在HumanEval编码任务中得分88.1%,在多语言数学问题上得分85.6%。

该模型在数据处理方面表现尤其出色,Replit和Apollo等公司报告说,代码细化和内容生成都有显著改善。

Claude 3.5 Haiku的价格很便宜,每百万输入令牌只需0.80美元

该公司声称,用户可以通过提示缓存实现高达90%的成本节省,并通过使用消息批处理API获得额外50%的降幅,将该模型定位为企业在扩展AI业务时的一个具有成本效益的选择,与OpenAI o1-mini(每百万输入令牌3美元)相比是一个非常有趣的选择。

Sebastian SinclairJosh Quittner编辑

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论