Anthropic宣佈升級其AI產品組合,包括增強的Claude 3.5 Sonnet模型和新推出的Claude 3.5 Haiku,以及公開測試版的"計算機控制"功能。
升級後的Claude 3.5 Sonnet在所有指標上都有顯著改善,尤其是在編碼能力方面取得了顯著進步。該模型在SWE-bench Verified基準測試中獲得了49.0%的成績,超過了所有公開可用的模型,包括OpenAI的產品和專門的編碼系統。
作為一項開創性的發展,Anthropic引入了計算機使用功能,使Claude能夠像人類一樣與計算機進行互動:檢視螢幕、控制游標、點選和鍵入。這一功能目前處於公開測試階段,標誌著Claude 3.5 Sonnet成為首個提供此類功能的前沿AI模型。
幾家主要科技公司已經開始實施這些新功能。
"升級後的Claude 3.5 Sonnet代表了AI編碼的重大飛躍,"GitLab報告稱,在不增加延遲的情況下,該模型在各種用例中的推理能力提高了高達10%。
新的Claude 3.5 Haiku模型計劃於本月晚些時候釋出,其效能與之前的Claude 3 Opus相匹配,同時保持了成本效益和速度。它在SWE-bench Verified基準測試中達到了40.6%,超過了許多競爭對手模型,包括原始的Claude 3.5 Sonnet和GPT-4o。

關於計算機控制功能,Anthropic採取了謹慎的方法,承認了當前的侷限性,同時也強調了潛在的可能性。在評估計算機介面導航的OSWorld基準測試中,Claude 3.5 Sonnet在僅使用截圖的測試中達到了14.9%,明顯優於下一個最佳系統的7.8%。
這些發展已經經過了嚴格的安全評估,在部署前與美國和英國AI安全研究所進行了合作測試。Anthropic表示,其負責任的擴充套件政策中詳述的ASL-2標準仍然適用於這些模型。
(圖片來源:Anthropic)

想了解更多來自行業領導者的AI和大資料資訊嗎?請檢視在阿姆斯特丹、加利福尼亞和倫敦舉辦的AI & Big Data Expo。這個全面的活動與其他領先的活動如Intelligent Automation Conference、BlockX、Digital Transformation Week和Cyber Security & Cloud Expo同時舉辦。
您可以在這裡探索由TechForge提供的其他即將到來的企業技術活動和網路研討會here。
本文最初發表於AI News。





