OpenAI 年終大促銷之際,谷歌推出Gemini 2.0,Anthropic 推出 Claude 3.5 Haiku

avatar
Decrypt
12 小時前
本文為機器翻譯
展示原文

谷歌本週釋出了Gemini 2.0,其最新的AI模型擁有自主能力和多模態特徵。

這次釋出的一個顯著特點是,谷歌將AI聊天機器人視為正在演化為AI代理 - 使用生成式AI與使用者互動並實時理解和執行任務的定製軟體。

"藉助多模態能力的新進展,如原生影象和音訊輸出以及原生工具使用,我們將能夠構建新的AI代理,使我們更接近通用助手的願景,"谷歌CEO桑達爾·皮查伊表示。

該模型在多模態基礎上進行了構建,具有新的原生影象生成和文字到語音能力,以及改進的推理技能。

據谷歌介紹,2.0 Flash版本在關鍵基準測試中的表現優於之前的1.5 Pro版本,同時執行速度提高了一倍。

目前,該模型僅對支付谷歌高階版(與Claude和ChatGPT Plus競爭的付費訂閱)的使用者開放。

那些願意動手的人可以透過訪問谷歌AI工作室來獲得更完整的體驗。

需要注意的是,這個介面比Gemini提供的簡單、直接和使用者友好的UI更加複雜。

此外,它更強大但速度更慢。在我們的測試中,我們讓它分析一個74K令牌長的文件,它花了近10分鐘才給出響應。

不過,輸出結果足夠準確,沒有幻覺。分析約20萬令牌(近15萬字)的較長文件需要更長的時間,但只要有足夠的耐心,該模型就能勝任這項工作。

谷歌還實施了一項"深度研究"功能,現已在Gemini高階版中推出,利用該模型增強的推理和長上下文能力,探索複雜主題並編寫報告。

這使使用者能夠比使用常規模型更深入地研究不同主題。然而,它基於Gemini 1.5,目前還沒有基於Gemini 2.0的版本。

這項新功能使Gemini直接與Perplexity的Pro搜尋、You.com的研究助手以及較不知名的BeaGo等服務競爭,提供類似的體驗。不過,谷歌的服務有所不同。在提供資訊之前,必須先確定最佳的任務方法。

它向用戶提供一個計劃,使用者可以編輯它以包含或排除資訊,新增更多研究材料,或提取資訊片段。一旦方法論確定下來,他們就可以指示聊天機器人開始研究。到目前為止,還沒有任何AI服務為研究人員提供這種程度的控制和定製性。

在我們的測試中,一個簡單的提示"研究AI對人際關係的影響"觸發了對十幾個可靠的科學或官方網站的調查,該模型基於8個適當引用的來源產生了一份3頁長的文件。這還不錯。

谷歌還分享了一段影片,展示了由Gemini 2.0驅動的實驗性AI助手專案Astra。Astra是谷歌對Meta AI的回應:一個能夠實時與人互動的AI助手,使用智慧手機的攝像頭和麥克風作為資訊輸入,並以語音模式提供響應。

谷歌為Astra專案賦予了更廣泛的功能,包括支援多語言對話並具有改進的口音識別、與谷歌搜尋、鏡頭和地圖的整合、保留10分鐘對話上下文的擴充套件記憶體、長期記憶以及透過新的流式傳輸功能實現低延遲對話。

儘管在社交媒體上反響平平 - 谷歌的影片自發布以來只有9萬次觀看 - 但這一新一代模型的釋出似乎在使用者中獲得了不錯的吸引力,網路搜尋量顯著增加,尤其是在ChatGPT Plus大規模中斷期間宣佈的情況下。

谷歌本週的公告表明,它正試圖與OpenAI競爭成為生成式AI行業的領導者。

事實上,其公告恰逢OpenAI的"聖誕節12天"活動期間,該公司每天都會推出一款新產品。

到目前為止,OpenAI已經推出了一款新的推理模型(o1)、一款影片生成工具(Sora)和一款每月200美元的"專業"訂閱服務。

谷歌還推出了一款新的AI驅動Chrome擴充套件程式專案Mariner,使用代理導航網站並完成任務。在針對現實世界網路任務的WebVoyager基準測試中,Mariner作為單一代理實現了83.5%的成功率,谷歌表示。

"在過去一年裡,我們一直在投資開發更多代理模型,這意味著它們可以更好地理解周圍的世界,提前多步思考,並在您的監督下代表您採取行動,"皮查伊在公告中寫道。

該公司計劃將Gemini 2.0整合到其產品線中,從今天開始在Gemini應用程式中提供實驗性訪問開始。更廣泛的釋出將於1月份進行,包括整合到谷歌搜尋的AI功能中,目前這些功能已經覆蓋了超過10億使用者。

Gemini 2的釋出恰逢Anthropic悄然推出了最新更新。Claude 3.5 Haiku是其AI模型系列的更快版本,在編碼任務上聲稱有更出色的效能,在SWE-bench Verified基準測試中得分40.6%。

Anthropic仍在訓練其最強大的模型Claude 3.5 Opus,預計將於2025年晚些時候釋出,此前經歷了一系列延遲。

谷歌和Anthropic的高階服務都定價為每月20美元,與OpenAI的基本ChatGPT Plus層相匹配。

Anthropic的Claude 3.5 Haiku被證明比Claude 3 Sonnet(Anthropic上一代中型號模型)快得多、成本更低、效能更強,在HumanEval編碼任務中得分88.1%,在多語言數學問題上得分85.6%。

該模型在資料處理方面表現尤其出色,Replit和Apollo等公司報告說,程式碼細化和內容生成都有顯著改善。

Claude 3.5 Haiku的價格很便宜,每百萬輸入令牌只需0.80美元

該公司聲稱,使用者可以透過提示快取實現高達90%的成本節省,並透過使用訊息批處理API獲得額外50%的降幅,將該模型定位為企業在擴充套件AI業務時的一個具有成本效益的選擇,與OpenAI o1-mini(每百萬輸入令牌3美元)相比是一個非常有趣的選擇。

Sebastian SinclairJosh Quittner編輯

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論