Claude Opus 4.7 đã ra mắt, phiên bản hiện đại nhất (SOTA) được phát hành rộng rãi, nhưng nó lại mang nhiều đặc điểm của một hệ thống GPT (Hiệu năng tổng thể, Nền tảng và Viễn thông).

avatar
36kr
04-17
Bài viết này được dịch máy
Xem bản gốc

Sau khi đánh lạc hướng bằng Mythos, Anthropic bất ngờ tung ra Claude Opus 4.7 .

Nhiều bạn đã thức cả đêm chơi game thâu đêm suốt sáng!

Tôi bật dậy khỏi giường và bắt đầu lướt internet trong khi trải nghiệm Opus 4.7. Tôi đã biết được một số tin xấu và một số tin tốt từ đó.

Hãy bắt đầu với tin xấu — Opus 4.7 trông khá giống một người bạn cũ.

Anh ấy lúc nào cũng muốn "bắt được tôi một cách an toàn".

Nhiều người dùng cũng báo cáo rằng mặc dù được cho là nâng cấp, Opus 4.7 dường như ngày càng giống GPT hơn khi sử dụng càng nhiều.

Nếu điều đó là sự thật, thì đây không phải là chuyện tốt (bất lực nhắm mắt lại.jpg).

Chỉ có một tin xấu, nhưng bù lại có rất nhiều tin tốt.

Nó vượt trội hơn phiên bản tiền nhiệm ở nhiều khía cạnh, bao gồm lập trình tác nhân, lập trình thiết bị đầu cuối tác nhân, sử dụng công cụ theo tỷ lệ và suy luận trực quan. Tuy nhiên, nó giảm ở một vài khả năng riêng lẻ, chẳng hạn như tìm kiếm tác nhân.

Anthropic cũng kiêu ngạo tuyên bố:

Opus 4.7 hiện là mô hình mạnh nhất mà chúng tôi cung cấp cho người dùng. Tuy nhiên, nó vẫn chưa phải là mô hình mạnh nhất!

Dường như Mythos vẫn là kẻ mạnh nhất, hắn luôn giấu kín các đòn tấn công của mình.

Nhìn vào bảng trên, Mythos cho kết quả tốt hơn khoảng 10% đến 15% trong tất cả các bài kiểm tra đó.

Không còn nghi ngờ gì nữa, Mythos Preview hiện là lá bài mạnh nhất của Anthropic, sở hữu tối đa các khả năng, nhưng giá của nó cũng cao gấp năm lần so với Opus 4.7.

So với các phiên bản khác, Opus 4.7 giống như phiên bản sản xuất hàng loạt mạnh mẽ nhất với hệ thống bảo mật được kiểm chứng đầy đủ, giá cả phải chăng và khả năng truy cập mở trên tất cả các nền tảng.

Nhưng... ngay cả người khôn ngoan nhất cũng có thể mắc sai lầm.

Mặc dù có hiệu năng mạnh mẽ, Opus 4.7 đã gặp phải một trở ngại vào ngày hôm qua:

Claude Opus 4.7 Cuộc tấn công bất ngờ: Bốn nâng cấp cốt lõi

Nhìn chung, phiên bản Opus 4.7 mạnh mẽ nhất hiện có trên thị trường này hoạt động cực kỳ tốt ở cả bốn khía cạnh.

Kỹ thuật phần mềm nâng cao: Đáng tin cậy

Những cải tiến đáng kể nhất của Opus 4.7 nằm ở lĩnh vực kỹ thuật phần mềm tiên tiến.

Hãy cùng xem xét tập dữ liệu này:

Điểm kiểm tra được xác minh bởi SWE-bench đạt 78,2%;

SWE-bench Multimodal đạt được 72,7%;

Terminal-Bench 2.0 đạt 68,8%;

Số lượng nhiệm vụ sản xuất được giải quyết trong Rakuten-SWE-Bench gấp ba lần so với Opus 4.6;

Điểm chuẩn lập trình cho 93 nhiệm vụ trên GitHub cũng đã được cải thiện 13%.

Giám đốc điều hành của Cursor, Michael Truell, đã đưa ra một đánh giá quan trọng:

Trên CursorBench, Opus 4.7 đã tăng từ 58% lên 70%, một bước nhảy vọt đáng kể.

Sự cải thiện này được thể hiện qua ba đặc điểm chính.

Trước tiên, hãy tuân thủ nghiêm ngặt các hướng dẫn.

Opus 4.7 không còn "diễn giải linh hoạt" các biểu thức mơ hồ của người dùng như trong các phiên bản trước nữa, mà thay vào đó thực thi chúng một cách chính xác.

Điều này có nghĩa là nếu trước đó bạn đã viết một đề xuất như "Hãy cố gắng tối ưu hóa đoạn mã này nếu có thể", thì mô hình có thể sẽ bỏ qua đề xuất đó một cách có chọn lọc.

Nếu bạn nói "tối ưu hóa đoạn mã này", chắc chắn nó sẽ được thực thi.

Sự thay đổi này đòi hỏi người dùng phải điều chỉnh lại chiến lược nhắc nhở của mình, với các từ ngữ bổ nghĩa tỷ trọng nhàng như "nếu có thể/lý tưởng nhất/cố gắng" sẽ được sử dụng nhiều hơn, và các điều kiện ràng buộc cứng nhắc cần phải rõ ràng hơn.

Thứ hai, hãy tự kiểm tra trước khi xuất kết quả.

Opus 4.7 đề ra các phương pháp để xác minh kết quả đầu ra của chính nó trước khi báo cáo, tương tự như cách một kỹ sư cấp cao chạy thử nghiệm trước khi đưa mã vào biên dịch.

Thứ ba, họ thành thạo trong việc xử lý các thay đổi phức tạp trên nhiều tập tin, gỡ lỗi không chính xác và xem xét mã nguồn giữa các dịch vụ khác nhau.

Sarah Sachs, Trưởng bộ phận AI tại Notion, đã chia sẻ một số dữ liệu:

Đối diện các quy trình làm việc phức tạp, nhiều bước, Opus 4.7 mang lại hiệu suất cải thiện 14% so với Opus 4.6, với mức tiêu thụ token thấp hơn và chỉ một phần ba lỗi công cụ. Đây là mô hình đầu tiên vượt qua bài kiểm tra các yêu cầu ngầm định của chúng tôi.

Khả năng hiển thị: Độ phân giải x3, xem thêm chi tiết

Opus 4.7 cũng cho thấy sự cải thiện đáng kể về khả năng hiển thị.

Dữ liệu chính thức cho thấy cạnh dài nhất hỗ trợ tối đa 2576 pixel (≈3,75 megapixel), gấp hơn 3 lần so với Opus 4.6; độ sắc nét hình ảnh của XBOW đạt 98,5% (Opus 4.6 chỉ đạt 54,5%).

Nó bao phủ hầu hết các tình huống ứng dụng thực tế, có thể trực tiếp nhận diện bản thiết kế Figma hoàn chỉnh và ảnh chụp màn hình terminal 1080p (bao gồm cả văn bản nhỏ màu xám), phân tích chính xác các sơ đồ kiến ​​trúc kỹ thuật phức tạp và biểu đồ tài chính, đồng thời có thể đọc rõ ràng các yếu tố giao diện người dùng mật độ cao trong các tình huống sử dụng máy tính, với khả năng xử lý hình ảnh gần như hoàn hảo.

Nói cách khác, nhiệm vụ trước đây đòi hỏi các mô hình chuyên biệt, chẳng hạn như phân tích cấu trúc hóa học, nhận dạng biểu đồ kỹ thuật phức tạp và định vị chính xác các yếu tố giao diện người dùng ở cấp độ pixel, giờ đây có thể được xử lý bởi một mô-đun duy nhất trong Opus 4.7.

Giá cổ phiếu của Figma lao dốc ngay lập tức khi nghe tin này; tình hình vô cùng thảm khốc.

Tuân thủ hướng dẫn và lý luận: dễ kiểm soát hơn và đáng tin cậy hơn

Opus 4.7 cũng đã đạt được những tiến bộ đáng kể trong việc tuân thủ mệnh lệnh.

Nó không còn cố gắng đoán ý định thực sự của người dùng nữa, mà thay vào đó tuân thủ nghiêm ngặt theo nghĩa đen.

Ưu điểm cốt lõi của nâng cấp lần nằm ở khả năng thực thi chính xác từng từ. Nếu người dùng yêu cầu "không sử dụng TypeScript", mô hình sẽ kiên quyết không sử dụng nó; nếu người dùng yêu cầu "xuất ra JSON", đầu ra chắc chắn sẽ không có bất kỳ tiền tố bổ sung nào.

Sự thay đổi này có thể đòi hỏi một số điều chỉnh đối với người dùng lâu năm (và các lời nhắc cũ dễ dẫn đến kết quả không mong muốn, cần phải hiệu chỉnh lại), nhưng nó là một lợi ích lớn cho các trường hợp yêu cầu kiểm soát chính xác.

Về khả năng suy luận, nó thể hiện hiệu suất vượt trội trong các kịch bản với ngữ cảnh dài 1 triệu token, đạt điểm số nhiệm vụ BFS là 58,6%* (so với 41,2% của Opus 4.6), cho thấy sự cải thiện đáng kể về tính mạch lạc logic trong suy luận phức tạp.

Nâng cấp dành cho Agent: Phiên bản được xây dựng riêng cho Agent.

Nếu như phiên bản Claude trước đây được thiết kế cho hội thoại, thì Opus 4.7 được thiết kế cho các điệp viên.

Điều này được thể hiện ở nhiều khía cạnh.

Nhìn chung, các khả năng cốt lõi của tác nhân trong Opus 4.7 đã được cải thiện toàn diện.

Một số công ty AI có tiếng đã trình bày dữ liệu về hiệu quả sử dụng thực tế—tỷ lệ thành công của quy trình làm việc nhiều bước của Notion đã tăng 14%, và tỷ lệ lỗi khi gọi công cụ đã giảm xuống còn 1/3; trong mô phỏng kinh doanh dài hạn Vending-Bench 2, số dư cuối cùng đạt 10.937 đô la (Opus 4.6 còn lại 8.018 đô la), giúp việc ra quyết định dài hạn trở nên mạnh mẽ hơn; trong kịch bản Genspark, ba tính năng cấp độ sản xuất là chống vòng lặp vô hạn, tính nhất quán và khả năng phục hồi lỗi đã được tận dụng tối đa.

Nó cũng có tính năng bộ nhớ hệ thống tập tin, ghi nhớ thông tin quan trọng một cách đáng tin cậy qua nhiều phiên làm việc và giảm 40% việc nhập liệu ngữ cảnh lặp đi lặp lại cho nhiệm vụ mới.

Lời mô tả của Scott Wu, CEO của Cognition, thậm chí còn sinh động hơn:

Opus 4.7 đưa khả năng tự chủ chu kỳ dài lên một tầm cao mới trong Devin. Nó có thể hoạt động liên tục trong nhiều giờ, giải quyết các thử thách thay vì bỏ cuộc, mở khóa một loạt các nhiệm vụ điều tra độ sâu mà trước đây chúng ta không thể thực hiện một cách đáng tin cậy.

Đồng thời, Opus 4.7 cũng cung cấp cho các nhà phát triển một bộ tính năng tuyệt vời liên quan đến Agent.

Đầu tiên, một mức suy luận xhigh mới đã được thêm vào, đóng vai trò là mức mặc định nằm giữa mức cao và mức tối đa.

Điều này giúp các nhà phát triển kiểm soát chi tiết hơn, cho phép họ tìm ra sự cân bằng giữa độ sâu suy luận và độ trễ, cân bằng giữa trí thông minh và chi phí token, và thích ứng với hầu hết nhiệm vụ lập trình/tác nhân.

Thứ hai, một chế độ tư duy thích ứng mới đã được thêm vào để thay thế cho lối tư duy dài dòng với ngân sách cố định. Mô hình này tự động xác định độ sâu của tư duy, cung cấp phản hồi nhanh chóng cho các truy vấn đơn giản và tập trung vào các nhiệm vụ chính cho các bước phức tạp.

Thứ ba, ngân sách nhiệm vụ(phiên bản beta công khai) cho phép các nhà phát triển hướng dẫn việc tiêu thụ token và tối ưu hóa việc phân bổ tài nguyên cho nhiệm vụ dài.

Thứ tư, Claude Code đã thêm lệnh /ultrareview, cho phép bạn tạo một phiên đánh giá chuyên dụng và đánh dấu các lỗi nhỏ cũng như các vấn đề về thiết kế.

Tôi muốn tạo ra một mô hình đáng tin cậy: bảo vệ ban đầu và tăng cường bộ nhớ.

Chính thức của Anthropic cho biết khả năng bảo mật mạng của Opus 4.7 kém hơn so với Mythos Preview.

Tuy nhiên, đây là điều họ đã cố tình làm.

Đằng sau "giới hạn tự đặt ra" này là cam kết nhất quán của Anthropic đối với sự an toàn của trí tuệ nhân tạo.

Kể từ khi thành lập vào năm 2021, công ty đã dành bốn năm để xây dựng danh tiếng một cách cẩn thận, nỗ lực tạo dựng hình ảnh "tập trung hơn vào việc triển khai AI an toàn và có trách nhiệm so với các đối thủ cạnh tranh như OpenAI."

Sau khi bản xem trước Mythos gây ra những cuộc tranh luận sôi nổi trong ngành về rủi ro bảo mật của các mô hình AI mạnh mẽ, Opus 4.7 được thiết kế như một lớp đệm.

Cụ thể, Anthropic đã thử nghiệm việc giảm dần khả năng mạng của Opus 4.7 trong quá trình huấn luyện, cho phép mô hình thể hiện hành vi thận trọng hơn khi đối diện nhiệm vụ liên quan đến an ninh mạng.

Đồng thời, chính thức đã công bố các biện pháp bảo vệ để tự động phát hiện và chặn các yêu cầu an ninh mạng có rủi ro cao. Các biện pháp bảo vệ này có thể tự động xác định và chặn các yêu cầu cho thấy mục đích bị cấm hoặc có rủi ro cao về an ninh mạng.

Để đáp ứng nhu cầu an ninh mạng chính đáng của các chuyên gia, Anthropic đã ra mắt Chương trình Xác minh An cyber .

Các chuyên gia bảo mật muốn sử dụng Opus 4.7 cho các mục đích hợp pháp như nghiên cứu lỗ hổng, kiểm thử xâm nhập và diễn tập tấn công giả lập (red team) có thể đăng ký thông qua các kênh chính thức.

Trang web chính thức cũng lưu ý ở cuối ra mắt rằng nếu các nhà phát triển muốn chuyển từ Opus 4.6 sang phiên bản 4.7, họ cần đặc biệt chú ý đến một số điều.

Đầu tiên, có một bản cập nhật cho bộ phân tách từ.

Opus 4.7 sử dụng một bộ phân tách từ mới, giúp cải thiện hiệu quả xử lý văn bản, nhưng cùng một đầu vào có thể được ánh xạ thành nhiều từ hơn, khoảng 1,0 đến 1,35 lần.

Điều này có nghĩa là cùng một lời nhắc có thể tiêu tốn nhiều token hơn, vì vậy cần phải dành ra một khoản dự phòng trong ngân sách chi phí.

Thứ hai, mức độ nỗ lực càng cao sẽ tạo ra càng nhiều mã thông báo đầu ra.

Opus 4.7 làm tăng đáng kể độ sâu tư duy ở cấp độ cao và rất cao, đặc biệt là trong giai đoạn sau của các cuộc hội thoại nhiều lượt trong kịch bản Đặc vụ.

Mô hình hành vi "chu đáo hơn, đáng tin cậy hơn" này cải thiện chất lượng đầu ra, nhưng đồng thời cũng có nghĩa là lượng tiêu thụ token sẽ tăng trưởng theo thời gian của phiên làm việc.

Có giá bán tương đương với Opus 4.6, đây là một số điều bạn cần biết.

Opus 4.7 hiện đã có mặt trên tất cả các nền tảng.

Ngoài các kênh chính thức của Claude, mô hình mới này cũng có sẵn trên tất cả các sản phẩm Claude Pro/Max/Team/Enterprise và API chính thức, cũng như ra mắt ba nền tảng đám mây lớn: Microsoft Foundry, Google Cloud Vertex AI và Amazon Bedrock.

Mức giá của nó tương tự như Opus 4.6: 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra.

Mặc dù, như đã đề cập trước đó, Opus 4.7 đòi hỏi phải chỉnh sửa lại các lời nhắc và điều chỉnh chiến lược sử dụng mã thông báo, Anthropic đã đưa ra những tín hiệu tích cực trong quá trình thử nghiệm nội bộ của mình.

Trong một đánh giá nội bộ về mã hóa tác nhân, hiệu quả sử dụng token đã được cải thiện so với Opus 4.6 ở tất cả các mức độ nỗ lực.

Nói cách khác, mặc dù số lượng token lần gọi có thể tăng lên, nhưng tổng số token cần thiết để hoàn thành nhiệm vụ thường ít hơn vì số lần mô hình mắc lỗi giảm đi.

Điều này giống như việc thuê một kỹ sư cấp cao với mức lương theo giờ cao hơn, nhưng người đó hoàn thành nhiệm vụ nhanh hơn, ít phải làm lại hơn, và cuối cùng tổng chi phí có thể thấp hơn.

Ngoài ra, Opus 4.7 sẽ thận trọng hơn ở lần sau, đặc biệt là trong các tình huống liên quan đến Đặc vụ.

Điều này có nghĩa là đầu ra đáng tin cậy hơn, nhưng cũng đồng nghĩa với việc tiêu thụ nhiều token hơn.

Các nhà phát triển có thể cân bằng hiệu suất và chi phí bằng cách điều chỉnh tham số nỗ lực, thiết lập ngân sách nhiệm vụ hoặc tối ưu hóa các lời nhắc.

Anthropic khuyến nghị nên bắt đầu với mức độ nỗ lực cao hoặc rất cao khi thử nghiệm mã hóa và các trường hợp sử dụng tác nhân của Opus 4.7, và điều chỉnh dần khi cần thiết.

Dù sao thì~

Nhìn chung, chi phí sử dụng thực tế sẽ khác nhau tùy thuộc vào cách sử dụng, nhưng trong hầu hết các trường hợp, lợi ích về hiệu quả nhờ các khả năng được cải thiện sẽ bù đắp cho sự gia tăng lượng tiêu thụ token.

Đây có thể là một thỏa thuận đáng giá cho đội ngũ phụ thuộc vào Claude trong các công việc phát triển phức tạp.

Liên kết tham khảo:

[1]https://www.anthropic.com/news/claude-opus-4-7

[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html

[3]https://x.com/i/trending/2044560325509316766

Bài viết này được đăng tải từ tài khoản WeChat công cộng "Quantum Bit" , tác giả: Heng Yu, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
60
Thêm vào Yêu thích
10
Bình luận