Anthropic 推出全新 Claude AI 模型和“計算機控制”

avatar
AI News
10-23
本文為機器翻譯
展示原文

Anthropic宣佈升級其AI產品組合,包括增強的Claude 3.5 Sonnet模型和新推出的Claude 3.5 Haiku,以及公開測試版的"計算機控制"功能。

升級後的Claude 3.5 Sonnet在所有指標上都有顯著改善,尤其是在編碼能力方面取得了顯著進步。該模型在SWE-bench Verified基準測試中獲得了49.0%的成績,超過了所有公開可用的模型,包括OpenAI的產品和專門的編碼系統。

作為一項開創性的發展,Anthropic引入了計算機使用功能,使Claude能夠像人類一樣與計算機進行互動:檢視螢幕、控制游標、點選和鍵入。這一功能目前處於公開測試階段,標誌著Claude 3.5 Sonnet成為首個提供此類功能的前沿AI模型。

幾家主要科技公司已經開始實施這些新功能。

"升級後的Claude 3.5 Sonnet代表了AI編碼的重大飛躍,"GitLab報告稱,在不增加延遲的情況下,該模型在各種用例中的推理能力提高了高達10%。

新的Claude 3.5 Haiku模型計劃於本月晚些時候釋出,其效能與之前的Claude 3 Opus相匹配,同時保持了成本效益和速度。它在SWE-bench Verified基準測試中達到了40.6%,超過了許多競爭對手模型,包括原始的Claude 3.5 Sonnet和GPT-4o。

Model benchmarks comparing new Claude AI models from Anthropic.
(Credit: Anthropic)

關於計算機控制功能,Anthropic採取了謹慎的方法,承認了當前的侷限性,同時也強調了潛在的可能性。在評估計算機介面導航的OSWorld基準測試中,Claude 3.5 Sonnet在僅使用截圖的測試中達到了14.9%,明顯優於下一個最佳系統的7.8%。

這些發展已經經過了嚴格的安全評估,在部署前與美國和英國AI安全研究所進行了合作測試。Anthropic表示,其負責任的擴充套件政策中詳述的ASL-2標準仍然適用於這些模型。

(圖片來源:Anthropic)

另見:IBM釋出Granite 3.0 AI模型並承諾開源

想了解更多來自行業領導者的AI和大資料資訊嗎?請檢視在阿姆斯特丹、加利福尼亞和倫敦舉辦的AI & Big Data Expo。這個全面的活動與其他領先的活動如Intelligent Automation ConferenceBlockXDigital Transformation WeekCyber Security & Cloud Expo同時舉辦。

您可以在這裡探索由TechForge提供的其他即將到來的企業技術活動和網路研討會here

本文最初發表於AI News

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論