谷歌本週釋出了Gemini 2.0,其最新的AI模型擁有自主能力和多模態特徵。
這次釋出的一個顯著特點是,谷歌將AI聊天機器人視為正在演化為AI代理 - 使用生成式AI與使用者互動並實時理解和執行任務的定製軟體。
"藉助多模態能力的新進展,如原生影象和音訊輸出以及原生工具使用,我們將能夠構建新的AI代理,使我們更接近通用助手的願景,"谷歌CEO桑達爾·皮查伊表示。
該模型在多模態基礎上進行了構建,具有新的原生影象生成和文字到語音能力,以及改進的推理技能。
據谷歌介紹,2.0 Flash版本在關鍵基準測試中的表現優於之前的1.5 Pro版本,同時執行速度提高了一倍。
目前,該模型僅對支付谷歌高階版(與Claude和ChatGPT Plus競爭的付費訂閱)的使用者開放。
那些願意動手的人可以透過訪問谷歌AI工作室來獲得更完整的體驗。
需要注意的是,這個介面比Gemini提供的簡單、直接和使用者友好的UI更加複雜。
此外,它更強大但速度更慢。在我們的測試中,我們讓它分析一個74K令牌長的文件,它花了近10分鐘才給出響應。
不過,輸出結果足夠準確,沒有幻覺。分析約20萬令牌(近15萬字)的較長文件需要更長的時間,但只要有足夠的耐心,該模型就能勝任這項工作。
谷歌還實施了一項"深度研究"功能,現已在Gemini高階版中推出,利用該模型增強的推理和長上下文能力,探索複雜主題並編寫報告。
這使使用者能夠比使用常規模型更深入地研究不同主題。然而,它基於Gemini 1.5,目前還沒有基於Gemini 2.0的版本。
這項新功能使Gemini直接與Perplexity的Pro搜尋、You.com的研究助手以及較不知名的BeaGo等服務競爭,提供類似的體驗。不過,谷歌的服務有所不同。在提供資訊之前,必須先確定最佳的任務方法。
它向用戶提供一個計劃,使用者可以編輯它以包含或排除資訊,新增更多研究材料,或提取資訊片段。一旦方法論確定下來,他們就可以指示聊天機器人開始研究。到目前為止,還沒有任何AI服務為研究人員提供這種程度的控制和定製性。
在我們的測試中,一個簡單的提示"研究AI對人際關係的影響"觸發了對十幾個可靠的科學或官方網站的調查,該模型基於8個適當引用的來源產生了一份3頁長的文件。這還不錯。
谷歌還分享了一段影片,展示了由Gemini 2.0驅動的實驗性AI助手專案Astra。Astra是谷歌對Meta AI的回應:一個能夠實時與人互動的AI助手,使用智慧手機的攝像頭和麥克風作為資訊輸入,並以語音模式提供響應。
谷歌為Astra專案賦予了更廣泛的功能,包括支援多語言對話並具有改進的口音識別、與谷歌搜尋、鏡頭和地圖的整合、保留10分鐘對話上下文的擴充套件記憶體、長期記憶以及透過新的流式傳輸功能實現低延遲對話。
儘管在社交媒體上反響平平 - 谷歌的影片自發布以來只有9萬次觀看 - 但這一新一代模型的釋出似乎在使用者中獲得了不錯的吸引力,網路搜尋量顯著增加,尤其是在ChatGPT Plus大規模中斷期間宣佈的情況下。
谷歌本週的公告表明,它正試圖與OpenAI競爭成為生成式AI行業的領導者。
事實上,其公告恰逢OpenAI的"聖誕節12天"活動期間,該公司每天都會推出一款新產品。
到目前為止,OpenAI已經推出了一款新的推理模型(o1)、一款影片生成工具(Sora)和一款每月200美元的"專業"訂閱服務。
谷歌還推出了一款新的AI驅動Chrome擴充套件程式專案Mariner,使用代理導航網站並完成任務。在針對現實世界網路任務的WebVoyager基準測試中,Mariner作為單一代理實現了83.5%的成功率,谷歌表示。
"在過去一年裡,我們一直在投資開發更多代理模型,這意味著它們可以更好地理解周圍的世界,提前多步思考,並在您的監督下代表您採取行動,"皮查伊在公告中寫道。
該公司計劃將Gemini 2.0整合到其產品線中,從今天開始在Gemini應用程式中提供實驗性訪問開始。更廣泛的釋出將於1月份進行,包括整合到谷歌搜尋的AI功能中,目前這些功能已經覆蓋了超過10億使用者。
Gemini 2的釋出恰逢Anthropic悄然推出了最新更新。Claude 3.5 Haiku是其AI模型系列的更快版本,在編碼任務上聲稱有更出色的效能,在SWE-bench Verified基準測試中得分40.6%。
Anthropic仍在訓練其最強大的模型Claude 3.5 Opus,預計將於2025年晚些時候釋出,此前經歷了一系列延遲。
谷歌和Anthropic的高階服務都定價為每月20美元,與OpenAI的基本ChatGPT Plus層相匹配。
Anthropic的Claude 3.5 Haiku被證明比Claude 3 Sonnet(Anthropic上一代中型號模型)快得多、成本更低、效能更強,在HumanEval編碼任務中得分88.1%,在多語言數學問題上得分85.6%。
該模型在資料處理方面表現尤其出色,Replit和Apollo等公司報告說,程式碼細化和內容生成都有顯著改善。
Claude 3.5 Haiku的價格很便宜,每百萬輸入令牌只需0.80美元。
該公司聲稱,使用者可以透過提示快取實現高達90%的成本節省,並透過使用訊息批處理API獲得額外50%的降幅,將該模型定位為企業在擴充套件AI業務時的一個具有成本效益的選擇,與OpenAI o1-mini(每百萬輸入令牌3美元)相比是一個非常有趣的選擇。