"Tôi không cần một mô hình tốt hơn nữa": Một cái nhìn thoáng qua về thế giới đa dạng của trí tuệ nhân tạo dưới một bài đăng đang thịnh hành trên Reddit.

Bài viết này được dịch máy

Xem bản gốc

Tác giả: Friday, TechFlow TechFlow

Anthropic vừa công bố một bản báo cáo hoàn hảo trên giấy tờ.

Ra mắt vào ngày 9 tháng 6, Claude Fable 5 là mẫu máy tính cấp Mythos đầu tiên của công ty được bán ra thị trường. Nó đạt được số điểm 80,3% trên bài kiểm tra nhiệm vụ năng phần mềm thực tế SWE-Bench Pro, vượt trội hơn so với sản phẩm chủ lực trước đó là Opus 4.8 khoảng 11 điểm phần trăm và GPT-5.5 hơn 20 điểm phần trăm.

Nhưng phản ứng của người dùng đã làm giảm bớt sự hào hứng.

Ba ngày sau khi ra mắt, một bài đăng thịnh hành trên diễn đàn r/artificial (305.000 lượt truy cập hàng tuần) có tiêu đề "Claude Fable khiến tôi nhận ra mình không cần một mô hình tốt hơn." Người đăng bài, Axi0m-22, cho biết anh đã sử dụng Fable cho nghiên cứu bảo mật và công việc hàng ngày trong một thời gian, sau đó gần như ngay lập tức chuyển trở lại Opus để lập trình và Haiku cho các tác vụ khác. Anh ấy đã sử dụng một phép so sánh: giống như việc xem iPhone 17 ra mắt trong khi đang cầm trên tay một chiếc iPhone 14, "Bạn biết rằng cái mới tốt hơn, nhưng bạn lại nghĩ: 'Không sao, cái của mình vẫn ổn.'"

Phần được đánh giá cao chủ yếu là những bình luận "đủ tốt": Sự nhàm chán về mặt thẩm mỹ với các mẫu thiết kế đã trở thành tâm lý.

Bình luận được xếp hạng cao nhất, với 42 lượt bình chọn, cho biết: "Ngoài cửa sổ ngữ cảnh lớn hơn, tôi không cảm thấy cần một mô hình mạnh mẽ hơn kể từ Opus 4.5. "

Một người dùng khác, hyprlab, nhận được 13 lượt bình chọn tích cực cho bình luận của mình: "Tôi không thấy lợi ích nào cho quy trình làm việc của mình khi chuyển sang mô hình tiêu tốn token mạnh mẽ hơn nữa. Chế độ cường độ cao của Opus 4.8 đã đủ thoải mái rồi."

Có một chi phí chung đằng sau những tuyên bố kiểu này.

API của Fable 5 có giá 10 đô la cho mỗi triệu token đầu vào, gần gấp đôi so với Opus 4.8. Người dùng siromega37 thẳng thắn nhận xét: "Lượng token tiêu thụ cao hơn, nhưng không thu hồi được vốn đầu tư. Tôi nghĩ chúng ta đang chứng kiến sự chững lại, và bong bóng cuối cùng sẽ vỡ."

Người dùng hobopwnzor đưa ra một cách giải thích có hệ thống hơn: "Chúng ta đã ở đỉnh của đường cong chữ S được một thời gian rồi. Sự tiến bộ gần đây chủ yếu đến từ việc gọi công cụ và kỹ thuật ngoại vi, chứ không phải từ khả năng của chính mô hình."

Lan can an toàn đã trở thành điểm gây tranh cãi lớn nhất: "90% mục đích sử dụng của chúng bị bác bỏ hoàn toàn."

Nếu "đủ tốt" chỉ đơn thuần là tâm lý, thì những lời phàn nàn về lan can an toàn là những vấn đề cụ thể của sản phẩm.

Theo tài liệu chính thức của Anthropic, Fable 5 sử dụng cùng mô hình nền tảng với Mythos 5, vốn chỉ được cung cấp cho một số lượng tổ chức nhất định. Điểm khác biệt nằm ở việc Fable bổ sung thêm bộ phân loại bảo mật: các yêu cầu liên quan đến các lĩnh vực rủi ro cao như an ninh mạng sẽ bị chặn và xử lý bởi Opus 4.8. Mô tả chính thức cho biết cơ chế này được điều chỉnh một cách thận trọng, chỉ kích hoạt trung bình trong chưa đến 5% số phiên và có thể nhầm lẫn đánh dấu các yêu cầu vô hại.

Dưới bài đăng trên Reddit này, tỷ lệ kích hoạt được cho là cao hơn nhiều so với 5%. Người dùng jradoff, người nhận được 17 lượt thích, cho biết anh ấy đã yêu cầu Fable kiểm tra tính bảo mật của mã của mình, và "về cơ bản nó đã từ chối xử lý bất cứ thứ gì liên quan đến bảo mật," sau đó bị chuyển sang Opus. Một bình luận khác với 12 lượt thích thậm chí còn thẳng thắn hơn: "90% những gì bạn muốn làm với nó sẽ bị từ chối, nó thực tế là vô dụng."

Người dùng trả phí thậm chí còn bất mãn hơn. kaitava, một người dùng ở gói đăng ký 200 đô la, viết: "Tôi đã trả gấp đôi phí sử dụng để yêu cầu kiểm tra bảo mật, và tôi bị hạ cấp xuống Opus. Giờ tôi không thích bất cứ điều gì về nó, và tôi chỉ đang chờ OpenAI bắt kịp."

Đối với một sản phẩm chủ lực nhấn mạnh vào khả năng vượt trội, "chi phí trả giá để có được sự tiện dụng" đang trở thành một yếu tố quan trọng trong quyết định mua hàng của người dùng.

Quan điểm trái ngược: Những người dùng nhiệm vụ sẽ cảm nhận sự khác biệt "một trời một vực".

Bài đăng được nhiều người ủng hộ không thiếu những ý kiến trái chiều, và phe đối lập được mô tả khá rõ ràng: nhiệm vụ càng nặng nề, mức độ đánh giá càng cao.

Bình luận của người dùng Phylaras nhận được 15 lượt thích: "Fable đã tạo ra sự khác biệt thực sự đối với tôi. Nó đã phát hiện ra những lỗi chưa từng được tìm thấy trước đây đối với nhiệm vụ phức tạp đòi hỏi cửa sổ ngữ cảnh lớn." Một người dùng tự nhận đang thực hiện các mô phỏng vật lý năng lượng cao cho biết rằng một mô hình mô phỏng duy nhất thường có từ 8.000 đến 10.000 dòng mã và hàng trăm mô hình tương tác với nhau. "Tôi rất mong chờ một mô hình có thể hoạt động độc lập và liên tục, đồng thời hiểu được các chi tiết của hoàn cảnh."

Phản bác mạnh mẽ nhất đến từ người dùng Navetz: "Thành thật mà nói, bất cứ ai đã sử dụng mô hình này đều sẽ nghĩ bài đăng này thật điên rồ. Đối với tôi, nó vô cùng thông minh, và tôi đã sử dụng nó liên tục. Tôi đã giải thích cho những người bạn không rành kỹ thuật của mình: nó giống như việc chuyển từ một cầu thủ đại học thành một cầu thủ chính thức trong NBA."

Một số người đã đưa ra các giải pháp thỏa hiệp. Người dùng ready-eddy đề xuất sử dụng Fable như một "công cụ lập kế hoạch và sửa lỗi" hơn là một "công cụ xây dựng" hàng ngày, trừ khi bạn không ngại chi tiền. Một bình luận khác tóm tắt vấn đề giống như một cuốn hướng dẫn sử dụng: sử dụng Fable để tính toán bảng là chọn sai mô hình, và sử dụng Haiku để chạy nhiệm vụ phức tạp với 16 tác nhân cũng là chọn sai mô hình. "Không có mô hình nào vốn dĩ là xấu, chỉ có mô hình được sử dụng trong những trường hợp sai."

Sau khi điểm chuẩn và trải nghiệm người dùng được tách rời, liệu trí tuệ nhân tạo (AI) dành cho công chúng có trở nên mạnh mẽ hơn nữa không?

Một trong những ý kiến thú vị nhất trong cuộc tranh luận này đã chuyển trọng tâm từ sản phẩm sang cấu trúc ngành.

Người dùng KedMcJenna đề xuất "lý thuyết đóng băng AI công khai": các mô hình mà người dân bình thường có thể tiếp cận có thể duy trì ở mức độ hiện tại vô thời hạn, trong khi giới tinh hoa doanh nghiệp và chính phủ sẽ tiếp tục sở hữu các mô hình sở hữu tư nhân mạnh mẽ hơn. "Chúng ta biết ít nhất là về Mythos, và có thể còn có những mô hình mạnh mẽ hơn nữa mà chúng ta sẽ không bao giờ biết đến."

Bình luận này chỉ ra thực tế rằng Mythos 5 hiện không được phát hành rộng rãi cho công chúng và chỉ có sẵn cho các cơ quan phòng thủ mạng và các công ty cơ sở hạ tầng trọng yếu thông qua chương trình Project Glasswing.

Khi xem xét đồng thời điểm số chuẩn và ý kiến công chúng, các kết luận không hề mâu thuẫn.

Các bài kiểm tra hiệu năng đo lường giới hạn trên của khả năng, trong khi các phần được đánh giá cao trên Reddit phản ánh mức độ đáp ứng nhu cầu hàng ngày. Vì hầu hết nhiệm vụ của người dùng đã được đáp ứng trong thời kỳ Opus 4.6, nên các mô hình mạnh mẽ hơn chỉ có thể chứng minh được khả năng của mình trong các tình huống cực đoan như mô phỏng vật lý và các ngữ cảnh cực kỳ dài. Các nhà cung cấp mô hình không còn phải đối diện câu hỏi "chúng ta có thể làm được không?", mà là "ai cần nó, họ sẵn sàng trả bao nhiêu và họ có thể chấp nhận mức độ rủi ro an toàn nào?".

Chỉ trong vòng ba ngày sau khi ra mắt, Fable 5 đã nhận được hai đánh giá hoàn toàn trái chiều trong các bảng xếp hạng hiệu năng và dư luận. Đánh giá nào chính xác hơn phụ thuộc vào tốc độ Anthropic điều chỉnh hệ thống phân loại bảo mật của mình và số phiếu bầu từ những người dùng thường xuyên.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan