Đánh giá Anthropic Claude 4: Thiên tài sáng tạo bị mắc kẹt bởi những hạn chế cũ

avatar
Decrypt
05-24
Bài viết này được dịch máy
Xem bản gốc

Trụ sở tại San Francisco, Anthropic vừa mới ra mắt thế hệ thứ tư của các mô hình AI Claude, và kết quả khá... phức tạp. Trong khi Google đẩy cửa sổ ngữ cảnh vượt quá một triệu token và OpenAI xây dựng các hệ thống đa phương thức có thể nhìn, nghe và nói, Anthropic vẫn giữ nguyên giới hạn 200.000 token và cách tiếp cận chỉ dựa trên văn bản. Giờ đây, nó trở thành một ngoại lệ giữa các công ty AI lớn.

Thời điểm này dường như được tính toán kỹ - Google cũng đã công bố Gemini trong tuần này, và OpenAI đã giới thiệu một tác nhân mã mới dựa trên mô hình Codex độc quyền của mình. Câu trả lời của Claude là các mô hình lai có thể chuyển đổi giữa chế độ suy luận và không suy luận tùy thuộc vào những gì bạn đưa ra - mang lại những gì OpenAI dự kiến sẽ mang đến khi phát hành GPT-5.

Nhưng đây là điều mà người dùng API nên nghiêm túc cân nhắc: Anthropic đang tính phí cao cho việc nâng cấp này.

Tuy nhiên, ứng dụng chatbot vẫn giữ nguyên mức giá 20 đô la, với Claude Max được định giá ở mức 200 đô la một tháng, với giới hạn sử dụng cao gấp 20 lần.

Chúng tôi đã đưa các mô hình mới này qua các bài kiểm tra về viết sáng tạo, lập trình, toán học và các nhiệm vụ suy luận. Kết quả kể một câu chuyện thú vị với những cải tiến nhỏ ở một số lĩnh vực, sự cải thiện bất ngờ ở những lĩnh vực khác, và sự chuyển hướng rõ ràng của Anthropic từ việc sử dụng chung sang các tính năng tập trung vào nhà phát triển.

Dưới đây là cách cả Claude Sonnet 4 và Claude Opus 4 đã thực hiện trong các bài kiểm tra khác nhau của chúng tôi. (Bạn có thể kiểm tra chúng, bao gồm các lời nhắc và kết quả của chúng tôi, trong kho lưu trữ Github của chúng tôi.)

Khả năng viết sáng tạo xác định liệu các mô hình AI có thể tạo ra các câu chuyện hấp dẫn, duy trì giọng điệu nhất quán và tích hợp các yếu tố thực tế một cách tự nhiên. Những kỹ năng này quan trọng đối với các nhà sáng tạo nội dung, nhà tiếp thị và bất kỳ ai cần sự hỗ trợ của AI trong việc kể chuyện hoặc viết thuyết phục.

Hiện tại, không có mô hình nào có thể vượt qua Claude trong bài kiểm tra chủ quan này (không tính đến Longwriter). Vì vậy, không có ý nghĩa gì khi so sánh Claude với các lựa chọn của bên thứ ba. Cho nhiệm vụ này, chúng tôi quyết định đặt Sonnet và Opus đối mặt với nhau.

Chúng tôi yêu cầu các mô hình viết một câu chuyện ngắn về một người quay lại quá khứ để ngăn chặn một thảm họa nhưng cuối cùng nhận ra rằng các hành động của họ từ quá khứ thực sự là một phần của những sự kiện đã khiến sự tồn tại nghiêng về tương lai cụ thể đó. Lời nhắc đã thêm một số chi tiết để xem xét và cho các mô hình đủ tự do và sáng tạo để thiết lập một câu chuyện theo cách của chúng.

Claude Sonnet 4 đã tạo ra văn xuôi sinh động với các chi tiết bầu không khí và sự tinh tế tâm lý tốt nhất. Mô hình đã tạo ra các mô tả hấp dẫn và cung cấp một câu chuyện thuyết phục, mặc dù kết thúc không chính xác như yêu cầu - nhưng phù hợp với câu chuyện và kết quả dự kiến.

Nhìn chung, cấu trúc câu chuyện của Sonnet đã cân bằng giữa hành động, sự suy ngẫm và những hiểu biết triết học về tính không thể tránh khỏi của lịch sử.

Điểm số: 9/10 - chắc chắn tốt hơn Claude 3.7 Sonnet

Claude Opus 4 đã đặt khoa học viễn tưởng của mình trong các bối cảnh lịch sử đáng tin cậy, tham chiếu đến các quan điểm thế giới bản địa và xã hội Tupi tiền thuộc địa với sự chú ý cẩn thận đến các giới hạn văn hóa. Mô hình đã tích hợp tài liệu nguồn một cách tự nhiên và cung cấp một câu chuyện dài hơn so với Sonnet, mặc dù không thể phù hợp với sự tinh tế thơ ca của nó, thật đáng tiếc.

Nó cũng cho thấy một điều thú vị: Câu chuyện bắt đầu sống động và hấp dẫn hơn những gì Sonnet cung cấp, nhưng ở đâu đó ở giữa, nó chuyển sang vội vàng để đưa ra một bước ngoặt, khiến toàn bộ kết quả trở nên nhàm chán và dễ đoán.

Điểm số: 8/10

Sonnet 4 là người chiến thắng trong việc viết sáng tạo, mặc dù khoảng cách vẫn còn hẹp. Các nhà văn, hãy cảnh giác: Không giống như các mô hình trước đây, có vẻ như Anthropic không ưu tiên cải thiện việc viết sáng tạo, tập trung nỗ lực phát triển ở nơi khác.

Tất cả các câu chuyện đều có sẵn tại đây.

(Lưu ý: Đây là bản dịch một phần của văn bản. Toàn bộ văn bản sẽ rất dài nên tôi chỉ dịch một phần để minh họa. Nếu bạn muốn toàn bộ bản dịch, vui lòng yêu cầu cụ thể.)

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
Bình luận