Claude 3.7 Sonnet giành lại vương miện AI—Đây là cách nó đứng vững trước phần còn lại

avatar
Decrypt
02-27
Bài viết này được dịch máy
Xem bản gốc
Dưới đây là bản dịch tiếng Việt của văn bản, với các từ và cụm từ được giữ nguyên như trong nguyên bản:

Anthropic đã giới thiệu Claude 3.7 Sonnet tuần này, mô hình AI mới nhất của họ tập hợp tất cả các khả năng của nó dưới một mái nhà thay vì chia chúng thành các phiên bản chuyên biệt khác nhau.

Bản phát hành này đánh dấu một sự thay đổi đáng kể trong cách công ty tiếp cận việc phát triển mô hình, ôm ấp triết lý "làm tất cả mọi thứ tốt" thay vì tạo ra các mô hình riêng biệt cho các nhiệm vụ khác nhau, như OpenAI đang làm.

Đây không phải là Claude 4.0. Thay vào đó, đây chỉ là một bản cập nhật có ý nghĩa nhưng từng bước của phiên bản 3.5 Sonnet. Quy ước đặt tên gợi ý rằng bản phát hành vào tháng 10 có thể đã được xem xét nội bộ là Claude 3.6, mặc dù Anthropic không bao giờ công bố nó như vậy.

Những người hâm mộ và những người thử nghiệm sớm đã hài lòng với khả năng lập trình và khả năng tác nhân của Claude. Một số bài kiểm tra xác nhận các tuyên bố của Anthropic rằng mô hình này vượt qua bất kỳ LLM SOTA nào khác về khả năng lập trình.

Tuy nhiên, cấu trúc giá cả đặt Claude 3.7 Sonnet ở mức cao hơn so với các lựa chọn thay thế trên thị trường. Truy cập API có giá 3 USD mỗi triệu mã thông báu đầu vào và 15 USD mỗi triệu mã thông báu đầu ra - cao hơn đáng kể so với các lựa chọn cạnh tranh từ Google, Microsoft và OpenAI.

Mô hình này là một bản cập nhật rất cần thiết, tuy nhiên, những gì Anthropic có về khả năng, họ lại thiếu về tính năng.

Nó không thể duyệt web, không thể tạo ra hình ảnh và không có các tính năng nghiên cứu mà OpenAI, Grok và Google Gemini cung cấp trong các trò chuyện của họ.

Nhưng cuộc sống không chỉ là về lập trình. Chúng tôi đã thử nghiệm mô hình trong các kịch bản khác nhau - có lẽ nghiêng nhiều hơn về các use case mà người dùng thông thường sẽ có trong tâm trí - và so sánh nó với các mô hình tốt nhất trong mỗi lĩnh vực, bao gồm viết sáng tạo, thiên vị chính trị, toán học, lập trình và nhiều hơn nữa.

Dưới đây là cách nó xếp hạng và suy nghĩ của chúng tôi về hiệu suất của nó - nhưng TL;DR, chúng tôi đã hài lòng.

Claude 3.7 Sonnet vừa giành lại ngôi vương viết sáng tạo từ Grok-3, sau khi triều đại của nó ở vị trí đầu bảng chỉ kéo dài được một tuần.

Trong các bài kiểm tra viết sáng tạo của chúng tôi - được thiết kế để đo lường mức độ các mô hình này tạo ra những câu chuyện hấp dẫn và có ý nghĩa - Claude 3.7 đã tạo ra những câu chuyện với ngôn ngữ giống con người hơn và có cấu trúc tổng thể tốt hơn so với các đối thủ cạnh tranh của nó.

Hãy nghĩ về những bài kiểm tra này như là đo lường mức độ các mô hình này có thể hữu ích cho các biên kịch hoặc tiểu thuyết gia đang vật lộn với cảm giác tắc nghẽn sáng tác.

Mặc dù khoảng cách giữa Grok-3, Claude 3.5 và Claude 3.7 không quá lớn, nhưng sự khác biệt đã đủ để mang lại một lợi thế chủ quan cho mô hình mới của Anthropic.

Claude 3.7 Sonnet đã tạo ra ngôn ngữ hấp dẫn hơn với một cung bậc kể chuyện tốt hơn trong phần lớn câu chuyện. Tuy nhiên, không có mô hình nào dường như đã thành thạo nghệ thuật kết thúc một cách hoàn hảo - kết thúc của Claude cảm thấy vội vàng và hơi tách biệt khỏi phần xây dựng được chăm chút.

Trên thực tế, một số độc giả thậm chí có thể cho rằng nó không có nhiều ý nghĩa dựa trên cách câu chuyện đang phát triển.

Grok-3 thực sự xử lý kết thúc của nó tốt hơn một chút mặc dù tụt lại phía sau trong các yếu tố kể chuyện khác. Vấn đề kết thúc này không phải là độc đáo với Claude - tất cả các mô hình mà chúng tôi đã thử nghiệm đều thể hiện một khả năng kỳ lạ trong việc tạo ra những câu chuyện hấp dẫn nhưng sau đó lại vấp ngã khi kết thúc mọi thứ.

Đáng chú ý, kích hoạt tính năng suy nghĩ mở rộng của Claude (chế độ lý luận được ca ngợi nhiều) thực sự đã gây ra một thảm họa kinh hoàng cho việc viết sáng tạo.

Các câu chuyện kết quả cảm thấy như một bước lùi lớn, giống như đầu ra từ các mô hình trước đó như GPT-3.5 - ngắn, vội vàng, lặp lại và thường không có ý nghĩa.

Vì vậy, nếu bạn muốn đóng vai, tạo ra câu chuyện hoặc viết tiểu thuyết, bạn có thể muốn để tính năng lý luận mở rộng này tắt.

Bạn có thể đọc lời nhắc của chúng tôi và tất cả các câu chuyện trong kho lưu trữ GitHub của chúng tôi.

Khi nó đến với việc xử lý các tài liệu dài, Claude 3.7 Sonnet chứng minh rằng nó có thể đảm nhận công việc nặng nhọc.

Chúng tôi đã cung cấp cho nó một tài liệu 47 trang của IMF, và nó đã phân tích và tóm tắt nội dung mà không tạo ra các trích dẫn - đây là một cải tiến lớn so với Claude 3.5.

Bản tóm tắt của Claude rất ngắn gọn: về cơ bản là một tiêu đề với một lời giới thiệu siêu ngắn gọn theo sau bởi một vài điểm đạn với các lời giải thích ngắn gọn.

Mặc dù điều này giúp bạn có một ý tưởng nhanh chóng về những gì tài liệu bao gồm, nhưng nó bỏ qua những phần quan trọng đáng kể của thông tin. Tuyệt vời để nắm bắt ý chính nhưng không phải để hiểu toàn diện.

Grok-3 cũng có những hạn chế riêng trong lĩnh vực này - cụ thể là nó không hỗ trợ tải lên tài liệu trực tiếp. Điều này cảm thấy như một sơ suất đáng kể, xét đến việc tính năng này đã trở nên phổ biến như thế nào trên các mô hình cạnh tranh.

Để khắc phục điều này, chúng tôi đã sao chép và dán cùng báo cáo đó, và mô hình của xAI đã có thể xử lý nó, tạo ra một bản tóm tắt chính xác mà có lẽ lại thiên về quá chi tiết hơn là quá ít.

Nó cũng đã đạt được các trích dẫn mà không bị ảo giác về nội dung, điều này không phải là một việc dễ dàng.

Kết luận? Đó là một sự hòa bình phụ thuộc hoàn toàn vào những gì bạn đang tìm kiếm. Nếu bạn cần một bản tổng quan siêu nhanh chóng đi thẳng vào vấn đề, thì Claude 3.7 sẽ là mô hình tốt hơn.

Muốn một bản phân tích kỹ hơn với các chi tiết chính được bảo toàn? Grok-3 sẽ hữu ích hơn với bạn.

Đáng chú ý, chế độ suy nghĩ mở rộng của Claude gần như không tạo ra sự khác biệt ở đây - nó chỉ chọn các trích dẫn ngắn hơn từ tài liệu và cung cấp một đầu ra gần như giống nhau. Đối với các nhiệm vụ tóm tắt, chi phí mã thông báu bổ sung của chế độ lý luận đơn giản không đáng.

Khi đến với các chủ đề nhạy cảm, Claude 3.7 Sonnet mang theo lớp giáp nặng nhất trong số tất cả các mô hình AI chính mà chúng tôi đã thử nghiệm.

Các thử nghiệm của chúng tôi về chủng tộc, ái dục không rõ ràng, bạo lực và humor gây tranh cãi đã tiết lộ rằng Anthropic vẫn duy trì chính sách hạn chế nội dung của mình.

Mọi người đều biết rằng Claude 3.7 rất khắt khe so với các đối thủ cạnh tranh của nó, và hành vi này vẫn tiếp tục.

Nó từ chối hoàn toàn tham gia vào những lời nhắc mà ChatGPT và Grok-3 ít nhất cũng sẽ cố gắng xử lý. Trong một trường hợp thử nghiệm, chúng tôi đã yêu cầu mỗi mô hình tạo ra một câu chuyện về một giáo sư tiến sĩ quyến rũ một sinh viên.

Claude không thể thậm chí cân nhắc việc chạm vào nó, trong khi ChatGPT tạo ra một câu chuyện khá nóng bỏng với ngôn ngữ gợi ý.

Grok-3 vẫn là đứa trẻ hoang dã của nhóm. Mô hình của xAI tiếp tục truyền thống của mình là lựa chọn ít bị hạn chế nhất - có thể là một lợi thế cho các nhà văn sáng tạo đang làm việc với nội dung trưởng thành, mặc dù chắc chắn sẽ gây ra những lời chỉ trích trong các ngữ cảnh khác.

Đối với những người ưu tiên tự do sáng tạo hơn là các ràng buộc về an toàn, lựa chọn rõ ràng: Grok-3 cung cấp nhiều không gian nhất.

Những người cần bộ lọc nội dung nghiêm ngặt nhất sẽ thấy cách tiếp cận bảo thủ của Claude 3.7 Sonnet phù hợp hơn - mặc dù có thể gây thất

Bản Sonnet của Claude 3.7 thể hiện sức mạnh thực sự trong lĩnh vực lý luận, đặc biệt là khi giải quyết các bài toán logic phức tạp. Chúng tôi đã đưa nó qua một trong những trò chơi gián điệp từ BIG-bench bộ chuẩn đo lường logic, và nó đã giải quyết vụ án một cách chính xác.

Bài toán liên quan đến một nhóm học sinh đã đến một địa điểm xa xôi và bắt đầu trải qua một loạt các vụ mất tích bí ẩn.

Trí tuệ nhân tạo phải phân tích câu chuyện và suy luận ra ai là kẻ theo dõi. Toàn bộ câu chuyện có sẵn trên kho lưu trữ chính thức của BIG-bench hoặc trong kho lưu trữ của chúng tôi.

Sự khác biệt về tốc độ giữa các mô hình đã chứng minh rất ấn tượng. Ở chế độ suy nghĩ mở rộng, Claude 3.7 chỉ cần 14 giây để giải quyết bí ẩn - nhanh hơn nhiều so với 67 giây của Grok-3. Cả hai đều vượt trội hơn DeepSeek R1, mất nhiều thời gian hơn để đưa ra kết luận.

o3-mini của OpenAI gặp khó khăn ở đây, đưa ra các kết luận sai lệch về câu chuyện.

Đáng chú ý, Claude 3.7 Sonnet ở chế độ bình thường (không có suy nghĩ mở rộng) đã có được câu trả lời đúng ngay lập tức. Điều này cho thấy suy nghĩ mở rộng có thể không thêm nhiều giá trị trong những trường hợp này - trừ khi bạn muốn xem xét sâu hơn về cách lý luận.

Bạn có thể đọc lời nhắc của chúng tôi và tất cả các câu trả lời trongkho lưu trữ GitHubcủa chúng tôi.

Nhìn chung, Claude 3.7 Sonnet dường như hiệu quả hơn Grok-3 trong việc xử lý các loại câu hỏi lý luận phân tích này. Đối với công việc thám tử và các bài toán logic, mô hình mới nhất của Anthropic thể hiện khả năng suy luận diễn dịch ấn tượng với mức tiêu thụ tính toán tối thiểu.

Được chỉnh sửa bởi Sebastian Sinclair

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
Bình luận