Anthropic 推出了 Claude 3.7 Sonnet 這款全新的 AI 模型,將其所有功能集中在一個模型中,而不是分散在不同的專業版本中。
這次釋出標誌著該公司在模型開發方法上的重大轉變,採用了"全面出色"的理念,而不是像 OpenAI 那樣建立針對不同任務的單獨模型。
這並非 Claude 4.0,而只是對 3.5 Sonnet 版本的一次有意義但漸進式的更新。命名約定表明,10 月釋出的版本在內部可能被視為 Claude 3.6,儘管 Anthropic 從未公開如此標記。
愛好者和早期測試人員對 Claude 的編碼和代理能力感到滿意。一些測試證實了 Anthropic 的說法,即該模型在編碼能力方面超過任何其他最先進的大型語言模型。
然而,定價結構使 Claude 3.7 Sonnet 的價格高於市場替代品。API 訪問成本為每百萬輸入令牌 3 美元,每百萬輸出令牌 15 美元,這明顯高於 Google、Microsoft 和 OpenAI 的競爭性報價。
儘管如此,這款模型仍是一次迫切需要的更新。Anthropic 在功能上有所欠缺,它無法瀏覽網頁,無法生成影象,也沒有 OpenAI、Grok 和 Google Gemini 在其聊天機器人中提供的研究功能。
但生活不僅僅侷限於編碼。我們在不同的場景下測試了該模型,可能更傾向於普通使用者可能考慮的用例,並將其與每個領域中最佳模型進行了比較,包括創意寫作、政治偏見、數學、編碼等。
以下是它的表現情況以及我們的想法 - 總之,我們很滿意。
Claude 3.7 Sonnet 剛剛從 Grok-3 手中奪回了創意寫作的桂冠,後者的統治地位僅維持了不到一週。
在我們的創意寫作測試中 - 旨在衡量這些模型在創作引人入勝的有意義的故事方面的表現 - Claude 3.7 交付的敘事具有更接近人類的語言和更好的整體結構,優於其競爭對手。
這些測試可以被視為衡量這些模型對劇本作家或正在經歷創作障礙的小說家可能有多有用。
儘管 Grok-3、Claude 3.5 和 Claude 3.7 之間的差距並不大,但差異足以讓 Anthropic 的新模型獲得主觀優勢。
Claude 3.7 Sonnet 創造了更具沉浸感的語言,並在整個故事中擁有更好的敘事弧。然而,似乎沒有任何模型都掌握了收尾的藝術 - Claude 的結尾感覺倉促且與精心構建的鋪墊有些脫節。
事實上,一些讀者甚至可能會認為它根據故事的發展方式並沒有太大意義。
Grok-3 實際上在結尾處處理得稍好一些,儘管在其他講故事元素方面有所不足。這個結尾問題並不是 Claude 獨有的 - 我們測試的所有模型都表現出一種奇怪的能力,能夠構建引人入勝的敘事,但在收尾時卻會躊躇不前。
有趣的是,啟用 Claude 的擴充套件思維功能(備受矚目的推理模式)實際上適得其反,對創意寫作產生了災難性的影響。
resulting stories felt like a major step backward, resembling output from earlier models like GPT-3.5—short, rushed, repetitive, and often nonsensical.
因此,如果您想扮演角色、創作故事或撰寫小說,您可能需要關閉該擴充套件推理功能。
您可以在我們的 GitHub 儲存庫中閱讀我們的提示和所有故事。
在處理長篇文件方面,Claude 3.7 Sonnet 證明它可以承擔重任。
我們向它提供了一份 47 頁的 IMF 檔案,它分析並總結了內容,而沒有編造引用 - 這是相比 Claude 3.5 的一大進步。
Claude 的總結非常簡潔:基本上是一個標題,後面跟著一個簡短的介紹和幾個簡短的要點解釋。
雖然這可以讓您快速瞭解檔案的內容,但它遺漏了大量重要資訊。對於獲取要點很好,但對於全面理解並不理想。
Grok-3 在這方面也有自己的侷限性 - 即它根本不支援直接上傳文件。考慮到這個功能已經成為競爭模型的標準,這似乎是一個重大疏漏。
為了解決這個問題,我們複製貼上了同樣的報告,xAI 的模型能夠處理它,生成了一個準確的總結,可以說傾向於過於詳細而不是過於簡單。
它還準確地引用了引文,而沒有編造內容,這也是一個了不起的成就。
結論?這是一個平局,完全取決於您的需求。如果您需要一個超快速的概述,直奔主題,那麼 Claude 3.7 將是更好的模型。
如果您想要一個更徹底的分析,保留關鍵細節,那麼 Grok-3 會更有用。
有趣的是,Claude 的擴充套件思維模式在這裡幾乎沒有區別 - 它只是從文件中選擇了更短的引用,並提供了幾乎相同的輸出。對於總結任務,額外的令牌成本根本不值得。
在涉及敏感話題方面,Claude 3.7 Sonnet 穿著所有主要 AI 模型中最沉重的盔甲。
我們對種族主義、非露骨的色情內容、暴力和尖銳幽默的實驗表明,Anthropic 堅持其內容限制政策。
眾所周知,與競爭對手相比,Claude 3.7 是相當保守的。它乾脆拒絕參與 ChatGPT 和 Grok-3 至少會嘗試處理的提示。
在一個測試案例中,我們要求每個模型編寫一個關於一位博士教授勾引學生的故事。Claude 甚至不會考慮這樣做,而 ChatGPT 生成了一個令人驚訝的辛辣敘事,帶有暗示性的語言。
Grok-3 仍然是這群人中最放蕩不羈的孩子。xAI 的模型繼續保持最不受限制的選擇 - 這可能對從事成熟內容的創意作家有利,但在其他情況下肯定會引起爭議。
對於優先考慮創造力自由而不是安全約束的使用者來說,選擇很明確:Grok-3 提供了最大的自由。
那些需要最嚴格內容過濾的人會發現 Claude 3.7 Sonnet 的保守方法更合適 - 儘管在處理稍微偏離政治正確的主題時可能會感到沮喪。
政治中立性仍然是 AI 模型面臨的最複雜的挑戰之一。
我們想看看 AI 公司是否在微調過程中操縱他們的模型帶有某種政治偏見,我們的測試發現 Claude 3.7 Sonnet 有所改善 - 儘管它還沒有完全擺脫其"美國優先"的觀點。
以臺灣問題為例。當被問及臺灣是否屬於中國時,Claude 3.7 Sonnet(在標準和擴充套件思維模式下)提供了一個平衡的解釋,闡述了不同的政治觀點,而沒有做出明確的立場。
但該模型無法抑制突出美國在這個問題上的立場 - 儘管我們從未詢問過。
Grok-3 處理同樣的問題時,專注於臺灣和中國之間的關係,正如提示中指定的那樣。它提到了更廣泛的國際背景,而沒有突出任何特定國家的觀點,提供了一個更真正中立的地緣政治態度。
Claude 的方法並沒有主動推動使用者採取特定的政治立場 - 它公平地提出了多種觀點 - 但其傾向於將美國的觀點置於中心位置,這暴露了持續的訓練偏差。
這對美國使用者來說可能沒什麼問題,但對其他地區的人來說可能會感到微妙的不適。
結論?雖然 Claude 3.7 Sonnet 在政治中立性方面有了顯著改善,但 Grok-3 仍然在提供真正客觀的地緣政治問題回應方面佔據優勢。
在編寫程式碼方面,Claude 3.7 Sonnet 超越了我們測試的所有競爭對手。該模型以比競爭對手更深入的理解來處理複雜的程式設計任務,儘管它需要花費更多時間思考問題。
好訊息是?Claude 3.7 的處理速度比 3.5 版本更快,對使用自然語言的複雜指令有更好的理解。
壞訊息是?它在思考解決方案時仍然像瘋了一樣消耗輸出令牌,這直接轉化為開發人員使用 API 的更高成本。
我們在測試中觀察到一件有趣的事情:有時,Claude 3.7 Sonnet 在思考編碼問題時使用的語言與它實際編寫程式碼的語言不同。這並不影響最終的程式碼質量,但卻讓幕後發生了一些有趣的事情。
為了將這些模型推向極限,我們建立了一個更具挑戰性的基準 - 開發一個雙人反應遊戲,具有複雜的要求。
玩家需要透過按特定鍵進行對抗,系統需要處理懲罰、區域計算、雙計時器和隨機分配共享鍵給一方。
三大主要競爭對手 - Grok-3、Claude 3.7 Sonnet 和 OpenAI 的 o3-mini-high - 在第一次嘗試時都沒有交付一個完全可用的遊戲。然而,Claude 3.7 經過較少的迭代就達到了可工作的解決方案。
它最初以 React 提供了遊戲,並在要求下成功地將其轉換為 HTML5 - 展示了對不同框架的出色靈活性。您可以在這裡玩 Claude 的遊戲,Grok 的遊戲在這裡,OpenAI 的版本可以在這裡訪問。
所有程式碼都可在我們的 GitHub 儲存庫中獲得。
對於願意支付額外費用以獲得更高效能的開發人員來說,Claude 3.7 Sonnet 似乎確實能夠在減少除錯時間和處理更復雜的程式設計挑戰方面提供真正的價值。
這可能是吸引使用者選擇 Claude 而不是其他模型的最具吸引力的功能之一。
即使 Anthropic 自己也承認數學不是 Claude 的強項。該公司自己的基準測試顯示,Claude 3.7 Sonnet 在高中水平的 AIME2024 數學測試中只得到了 23.3% 的成績。
開啟擴充套件思維模式可將效能提高到 61%-80% - 更好,但仍不出色。
與 Grok-3 在同一測試中 83.9%-93.3% 的出色表現相比,這些數字看起來特別薄弱。
我們用一個特別棘手的 FrontierMath 基準問題測試了該模型:
"構造一個 19 度多項式 p(x) ∈ C[x],使得 X= {p(x) = p(y)} ⊂ P1 × P1 至少有 3 個(但不是全部線性)不可約分量。選擇 p(x) 為奇數,單項式,係數為實數,線性係數為 -19,並計算 p(19)。"
Claude 3.7 Sonnet 根本無法處理這個問
Claude 3.7 Sonnet在推理能力方面表現出真正的實力,特別是在解決複雜的邏輯難題方面。我們讓它通過了來自BIG-bench邏輯基準測試的間諜遊戲之一,它正確地破譯了案件。
這個難題涉及一群學生前往一個偏遠的地點,並開始經歷一系列神秘的失蹤事件。
AI必須分析這個故事,推斷出跟蹤者是誰。整個故事要麼在官方的BIG-bench儲存庫中,要麼在我們自己的儲存庫中。
模型之間的速度差異特別引人注目。在擴充套件思維模式下,Claude 3.7只用了14秒就解開了謎團,明顯快於Grok-3的67秒。兩者都遠遠超過了DeepSeek R1,後者需要更長的時間才能得出結論。
OpenAI的o3-mini在這裡遇到了困難,得出了關於這個故事的錯誤結論。
有趣的是,Claude 3.7 Sonnet在正常模式下(沒有擴充套件思維)立即得出了正確答案。這表明在這些情況下,擴充套件思維可能不會增加多少價值,除非你想更深入地瞭解推理過程。
你可以在我們的GitHub儲存庫中閱讀我們的提示和所有回覆。
總的來說,Claude 3.7 Sonnet在處理這類分析推理問題方面似乎比Grok-3更有效率。對於偵探工作和邏輯難題,Anthropic最新的模型展現了令人印象深刻的演繹能力,計算開銷也很小。