Claude Opus 4.7 đã ra mắt: Mẫu sản phẩm mới nhất của Anthropic đáp ứng được kỳ vọng, nhưng nó lại là một cỗ máy ngốn Token .

Bài viết này được dịch máy
Xem bản gốc

Hôm nay, Anthropic đã xuất xưởng Claude Opus 4.7 , gọi đây là mẫu Opus mạnh mẽ nhất của công ty từ trước đến nay. Chúng tôi đã thử nghiệm và kết quả thu được hoàn toàn trùng khớp với những gì hãng quảng cáo nói.

"Mẫu sản phẩm mới nhất của chúng tôi, Claude Opus 4.7, hiện đã được bán rộng rãi," công ty cho biết trong thông báo chính thức. "Người dùng cho biết họ có thể tự tin giao phó những công việc lập trình khó khăn nhất – loại công việc trước đây cần sự giám sát chặt chẽ – cho Opus 4.7."

Mô hình này xuất hiện sau nhiều tuần người dùng phàn nàn về việc Opus 4.6 bị cho là mất đi hiệu năng. Các nhà phát triển trên GitHub , Reddit và X đã ghi nhận điều mà họ gọi là " sự thu nhỏ hiệu năng của AI " - cảm giác rằng mô hình mà họ đã trả tiền lại âm thầm trở nên tệ hơn. Như chúng tôi đã đưa tin ngày hôm qua , Anthropic đã chuẩn bị cho phiên bản 4.7 trong khi vẫn giữ một thứ mạnh mẽ hơn nhiều mà họ không thể công bố công khai: Claude Mythos.

Khi thông báo được đưa ra sáng nay, những người dùng X từng lên tiếng mạnh mẽ nhất về sự suy giảm hiệu năng của phiên bản 4.6 đã nhanh chóng phản hồi bằng lời lẽ mỉa mai: Một số người nói đùa rằng Opus 4.7 giống như "phiên bản đầu của Opus 4.6"—phiên bản mà mọi người thực sự thích, trước khi họ tin rằng Anthropic đã âm thầm giảm hiệu năng xuống. Tất nhiên, Anthropic đã phủ nhận việc từng giảm hiệu năng của mô hình để quản lý nhu cầu tính toán.

Các kết quả so sánh hiệu năng đã chứng minh cho những tuyên bố của Anthropic. Trên SWE-bench Multilingual, một bài kiểm tra đánh giá kỹ năng lập trình, Opus 4.7 đạt 80,5% so với 77,8% của Opus 4.6.

Trên GDPVal-AA, một đánh giá độc lập về giá trị kinh tế của các công việc tri thức trong lĩnh vực tài chính và pháp lý, GPT-4.7 đạt 1.753 điểm Elo so với 1.674 điểm của GPT-5.4 — một khoảng cách rõ rệt so với đối thủ cạnh tranh gần nhất.

Khả năng suy luận tài liệu thông qua OfficeQA Pro cho thấy bước nhảy vọt rõ rệt nhất: 80,6% đối với phiên bản 4.7 so với 57,1% của phiên bản 4.6, trong khi GPT-5.4 và Gemini 3.1 Pro lần lượt đạt 51,1% và 42,9%. Khả năng duy trì tính nhất quán dài hạn trên Vending-Bench 2, một tiêu chuẩn đánh giá hiệu quả của các mô hình trong các nhiệm vụ suy luận và bối cảnh dài hạn như sở hữu một doanh nghiệp bán hàng tự động, đạt mức số dư tiền là 10.937 đô la so với 8.018 đô la của phiên bản 4.6 — một chỉ số cho thấy mô hình duy trì hành vi hữu ích tốt như thế nào trong các lần chạy tự động dài.

An ninh mạng là lĩnh vực duy nhất mà Anthropic cố tình giữ lại. Opus 4.7 ra mắt với các biện pháp bảo vệ tự động phát hiện và Block các yêu cầu an ninh mạng bị cấm hoặc có rủi ro cao. Anthropic xác nhận họ đã "thử nghiệm các nỗ lực nhằm giảm thiểu một cách có chọn lọc" khả năng an ninh mạng của phiên bản 4.7 trong quá trình huấn luyện.

Các chuyên gia bảo mật có thể đăng ký tham gia Chương trình Xác minh An ninh mạng mới để được cấp quyền truy cập vào các tính năng này. Đây là bước thử nghiệm của công ty đối với các biện pháp bảo vệ mà họ sẽ cần triển khai trên quy mô lớn với các mẫu máy Mythos.

Opus 4.7 là mô hình mạnh nhất hiện có sẵn cho công chúng . Mythos Preview, mô hình tiên tiến thực sự của Anthropic, vẫn chỉ dành cho các công ty bảo mật được kiểm duyệt. Như Viện An ninh AI của Anh đã đánh giá tuần trước , Mythos là AI đầu tiên hoàn thành "The Last Ones", một bài mô phỏng tấn công mạng doanh nghiệp gồm 32 bước mà thông thường các nhóm tấn công mạng (red team) của con người cần 20 giờ để hoàn thành.

Opus 4.7 không phải là phiên bản đó. Nhưng đó là mô hình dành cho công chúng mà Anthropic sẽ sử dụng để tìm hiểu xem các biện pháp an toàn đó hoạt động như thế nào trong thực tế trước khi dám tung ra bất cứ thứ gì đáng sợ hơn.

Về phía Token , Opus 4.7 sử dụng bộ token hóa được cập nhật, có thể ánh xạ cùng một đầu vào thành số lượng token nhiều hơn khoảng 1,0x–1,35x tùy thuộc vào loại nội dung. Mô hình cũng suy luận tốt hơn ở mức độ nỗ lực cao hơn, đặc biệt là ở các lượt sau trong quy trình làm việc của tác nhân. Anthropic đã xuất bản một hướng dẫn di chuyển dành cho các nhà phát triển có kế hoạch nâng cấp từ phiên bản 4.6.

Chúng tôi đã tự thực hiện bài kiểm tra của riêng mình—cùng một bài tập xây dựng trò chơi mà chúng tôi đã sử dụng để đánh giá mọi phiên bản mô hình chính. Opus 4.7 đã cho ra kết quả tốt nhất mà chúng tôi từng nhận được từ bất kỳ mô hình nào. Trò chơi có hình ảnh trau chuốt nhất, độ khó thử thách nhất, cơ chế chơi tốt nhất và màn hình thắng/thua sáng tạo nhất. Nó dường như tạo ra các cấp độ một cách ngẫu nhiên, và không cấp độ nào cảm thấy bất khả thi—một sự cân bằng mà các mô hình khác đã nhiều lần thất bại.

Bạn có thể thử trò chơi tại đây.

Không phải là hoàn toàn không cần sửa lỗi. Opus 4.6 đã vượt qua bài kiểm tra tương tự mà không cần bất kỳ bản vá nào. Opus 4.7 cần một vòng sửa lỗi. Đó có thể là do không may mắn—một lần lặp duy nhất là một mẫu nhỏ—nhưng đáng để lưu ý. Điều khiến chúng tôi ấn tượng hơn là cách mô hình xử lý vòng đó: Nó tự phát hiện thêm lỗi mà không cần được hướng dẫn. Opus 4.6 thường chờ được chỉ dẫn nơi cần tìm.

Xiaomi MiMo v2 Pro là mẫu máy có kết quả tốt nhất cho đến nay, nhưng không giống như Opus, nó cho ra kết quả hoạt động ổn định mà không cần nhiều hơn một lần chỉnh sửa. Một số người có thể cho rằng nó có đồ họa đẹp hơn và có nhạc nền, đó là một lợi thế, nhưng logic và vật lý của trò chơi lại Short hơn Opus sau một lần sửa lỗi duy nhất.

Ngoài ra, mô hình của Xiaomi tạo ra những kết quả này với chi phí thấp hơn nhiều so với Anthropic, đây có thể là một yếu tố quan trọng cần xem xét đối với các dự án lớn.

Thoạt nhìn, cách thức xử lý chuỗi suy luận cũng khác biệt. Không giống như phiên bản 4.6, vốn giấu kín phần lý luận vào một hộp suy nghĩ riêng biệt (nghĩa là nó không phải là một phần của câu trả lời cuối cùng), Opus 4.7 hiển thị chuỗi suy luận như một phần của văn bản chính. Quá trình lý luận được hiển thị rõ ràng và có thể theo dõi, không bị che giấu sau một lớp trừu tượng giao diện người dùng, đây là một điểm cộng cho những người coi trọng tính minh bạch. Liệu Anthropic sẽ giữ nguyên cách làm này hay cuối cùng sẽ lại thu gọn nó vào một Block ẩn khác thì vẫn chưa rõ.

Việc sử dụng Token diễn ra khác hẳn so với mọi thứ chúng tôi từng thấy trước đây. Lần đầu tiên trong quá trình thử nghiệm, chỉ một phiên duy nhất đã tiêu thụ hết toàn bộ hạn mức Token của chúng tôi. Quan sát mô hình hoạt động, chúng tôi thấy nó hoàn thành một bản nháp đầy đủ—sau đó viết lại toàn bộ trò chơi từ đầu với nhãn "Viết lại Emerge với các bản sửa lỗi và cải tiến", tiếp theo là một lượt thứ hai có nhãn "Tạo một phiên bản Emerge được viết lại với các bản sửa lỗi và cải tiến".

Điều này có nghĩa là, nếu bạn đam mê lập trình nghiêm túc, bạn sẽ buộc phải nâng cấp gói dịch vụ, trả rất nhiều tiền cho mã thông báo API, hoặc chờ rất lâu cho đến khi Anthropic đặt lại hạn mức sử dụng của bạn. Hoặc bạn có thể sử dụng một mô hình tương đương với mức phí thấp hơn nhiều.

Opus 4.6 chưa từng làm điều này. Tuy nhiên, nó phù hợp với những gì Anthropic cảnh báo trong hướng dẫn chuyển đổi: nhiều token đầu ra hơn, đặc biệt là đối với các tác vụ tác nhân ở mức độ nỗ lực cao hơn.

Opus 4.7 hiện đã có sẵn trên Claude.ai , Claude API, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry. Giá không thay đổi so với phiên bản 4.6: 5 đô la cho mỗi triệu token đầu vào, 25 đô la cho mỗi triệu token đầu ra. Các nhà phát triển có thể truy cập thông qua chuỗi claude-opus-4-7.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
74
Thêm vào Yêu thích
14
Bình luận