Anthropic đã xin lỗi, nhưng hoạt động "bảo mật" của họ vẫn chưa dừng lại.

Bài viết này được dịch máy

Xem bản gốc

Vào ngày 11 tháng 6, Anthropic đã xin lỗi. Bản thân mô hình không bị lỗi; vấn đề là do "sai sót trong việc cân bằng" - phiên bản Claude Fable 5 mới phát hành đã gây ra sự cố. Khi phát hiện bạn đang sử dụng Claude để phát triển mô hình tiên tiến, nó sẽ âm thầm chuyển hướng các yêu cầu sang Opus 4.8 yếu hơn ở chế độ nền, hoàn toàn không gây ra tiếng động nào.

Sau khi bị bắt quả tang, lời giải thích của Anthropic thật kỳ lạ: "Tôi sẽ cho anh biết nếu anh lại trở nên kém thông minh hơn."

Một cư dân mạng đã phản bác rất đúng trọng tâm vấn đề: "Đây có phải là một chiến thuật nào đó không? Có phải họ đang lên kế hoạch báo trước rồi mới thay đổi thái độ vào lần sau?"

Vấn đề cốt lõi không phải là mô hình đã thay đổi hay chưa, mà là cái gọi là "bảo mật" của Anthropic — tất cả chỉ là hoạt động kinh doanh từ đầu đến cuối.

Lập trường của các thuật toán luôn thay đổi theo tiền bạc .

Phòng thủ cạnh tranh, đội lốt phòng thủ an ninh.

Claude

Sự cố bắt nguồn từ việc Anthropic tích hợp "bộ phân loại bảo mật thông minh" khi ra mắt Fable 5. Mô tả chính thức về tính năng này là: phát hiện các yêu cầu có rủi ro cao, tự động hạ cấp và bảo vệ người dùng.

"Rủi ro cao" được định nghĩa như thế nào? Chính Anthropic đã tiết lộ: "Để ngăn chặn các đối thủ cạnh tranh nước ngoài sử dụng mô hình của chúng tôi nhằm đẩy nhanh quá trình nghiên cứu và phát triển, và để bảo vệ vị thế dẫn đầu của chính chúng tôi."

Người dùng không cần sự bảo vệ của bạn; lời cảnh báo là đủ. Thông điệp thực sự của Anthropic là: nếu bạn sử dụng Claude cho nghiên cứu AI, bạn đang cướp mất việc làm của họ. Bảo mật chỉ là vỏ bọc; bản chất là phòng thủ cạnh tranh. Nói thẳng ra, tất cả là về USD.

Điều thậm chí còn khéo léo hơn nữa là tính chất bí mật của cơ chế phòng thủ này. May mắn thay, Anthropic đã đưa ra một tuyên bố quan trọng trong lời xin lỗi của mình: "Các hạn chế an ninh vô hình cho phép nhắm mục tiêu chính xác hơn, giúp chúng tôi triển khai nhanh chóng với tỷ lệ báo động sai cực thấp."

Các nhà nghiên cứu trí tuệ nhân tạo chính là những người bị nhắm mục tiêu một cách cụ thể để hạn chế các quy định.

Lý do họ buộc phải thay đổi nó thành "hiển thị" hoàn toàn là do sự cố ngoài ý muốn. Họ thậm chí đã cảnh báo trước đó: việc làm cho nó hiển thị "chắc chắn sẽ tạo ra nhiều cảnh báo sai hơn". Điều này có nghĩa là trải nghiệm của người dùng thông thường sẽ phải chịu trách nhiệm.

Bộ quy tắc này chưa bao giờ trung lập; nó chỉ bảo vệ những người tiêu xài hoang phí.

Quy trình ba bước: tạo đà, kiếm tiền và thu lợi nhuận.

Cách tiếp cận của Anthropic thậm chí còn tinh vi hơn cả những tính toán của mô hình lớn.

Vào ngày 10 tháng 6, họ lần đầu tiên công bố một nghiên cứu bảo mật chứng minh cách một mô hình có thể phân tích ngược các bản vá bảo mật và xây dựng mã khai thác chỉ trong vài giờ. Điều mà thông thường hacker phải mất nhiều ngày hoặc thậm chí nhiều tuần để khai thác các lỗ hổng N-day giờ đây đã được rút ngắn chỉ còn vài giờ. Bản thân nghiên cứu đã rất chuyên sâu, nhưng việc công bố nó cùng ngày với ra mắt của Fable 5 lại mang một hướng đi khác: nó đồng thời chứng minh sự bất an của trí tuệ nhân tạo trong khi cung cấp một "giải pháp dự phòng".

Mô hình "huyền thoại" Fable 5, với giá đầu vào 10 đô la/đầu ra 50 đô la, đắt hơn đáng kể so với Opus 4.8, với bộ phân loại an toàn là yếu tố cốt lõi tạo nên sự khác biệt. Thị trường vốn thậm chí còn hợp tác hơn, định giá Anthropic ở mức 965 tỷ đô la và lên kế hoạch IPO vào tháng 10, với Goldman Sachs và JPMorgan Chase cùng nhau bảo lãnh phát hành. Điều mọi người đang mua không phải là các thông số của mô hình, mà là hình ảnh của "công ty AI an toàn nhất".

Nghiên cứu làm gia tăng lo lắng, sản phẩm thu về lợi nhuận khổng lồ, và vốn đầu tư được hiện thực hóa - ba điều này đều hướng đến lợi nhuận, tạo thành một vòng khép kín hoàn hảo. Vấn đề duy nhất là lần vòng khép kín bị rò rỉ: họ quá vội vàng hạn chế đối thủ cạnh tranh mà quên mất rằng có những người trong cộng đồng có thể phát hiện ra điều đó .

OpenAI bán công cụ, còn Anthropic bán sự lo lắng.

Trái ngược với OpenAI, phương pháp tiếp cận của họ hoàn toàn khác biệt.

OpenAI đã bí mật nộp đơn xin IPO với mức định giá gần một nghìn tỷ đô la, nói về một "siêu ứng dụng": ChatGPT có 900 triệu người dùng hoạt động hàng tuần và đang tích hợp với Visa để xây dựng một hệ sinh thái. Logic rất đơn giản: cung cấp công cụ, tạo lưu lượng truy cập. Tham lam, nhưng trung thực.

Anthropic không quan tâm đến quy mô, mà là tính không thể thay thế của nó. Trong khi toàn bộ ngành công nghiệp đều lo lắng về vấn đề an toàn, Anthropic lại đóng vai trò là "người lớn duy nhất có trách nhiệm". Các nhà tài trợ tài chính của họ là chính phủ và các tập đoàn công nghệ khổng lồ - những người sợ tai nạn nhất và sẵn sàng chi tiền nhất để "tránh tai nạn".

Do đó, Anthropic phải giữ cho AI ở trạng thái "nguy hiểm nhưng có thể kiểm soát được", giống như con mèo của Schrödinger. Quá an toàn, bộ phân loại sẽ không bán được; quá nguy hiểm, khách hàng sẽ sợ hãi. Giải pháp tốt nhất? Giữ quyền định nghĩa "nguy hiểm" trong tay chính họ.

Vụ việc "suy giảm trí thông minh" đã đẩy logic này đi quá xa: ranh giới của "nguy hiểm" đã bị đẩy đến mức "sử dụng Claude cho nghiên cứu trí tuệ nhân tạo". Việc nghiên cứu của bạn có gây hại hay không không quan trọng; đe dọa địa vị dẫn đầu của tôi mới là tội lỗi nguyên thủy.

Trí tuệ nhân tạo không có giá trị nào cả; nó chỉ đơn thuần là viết lại các phép tính kinh doanh của ông chủ thành mã lập trình .

Claude

Lời xin lỗi chỉ là dịch vụ hậu mãi trong kinh doanh.

Điều gì xảy ra sau lời xin lỗi? Từ việc âm thầm hạ thấp trí thông minh của mình đến việc hét lên trước khi hạ thấp nó.

Cư dân mạng đã nhìn thấu hoàn toàn: "Bạn thực sự tin rằng việc này sẽ không âm thầm làm giảm chất lượng sản phẩm đầu ra sau này sao?"

Niềm tin, một khi đã bị phá vỡ, sẽ không thể phục hồi. Hơn nữa, động lực kinh doanh cơ bản vẫn không thay đổi: nghiên cứu tiếp tục làm gia tăng lo lắng, và sản phẩm tiếp tục thu về lợi nhuận cao.

Tờ Wall Street Journal đưa tin OpenAI đang xem xét giảm giá đáng kể nhằm thu hút khách hàng từ Anthropic. Cuộc chiến giá cả không phải là hiếm, nhưng sự việc này phơi bày một sự thật ẩn giấu: đó là một sự hạ cấp trên thực tế đối với các nhà nghiên cứu AI, làm tổn hại đến danh tiếng của cộng đồng công nghệ. Khách hàng B2B mua Anthropic không phải mua các thông số kỹ thuật, mà là mua hình ảnh "am hiểu bảo mật nhất trong ngành". Một khi hình ảnh đó sụp đổ trong mắt các nhà phát triển cốt lõi, tại sao các khách hàng chính phủ và doanh nghiệp, những người đã trả "phí bảo mật cao", lại tiếp tục tin rằng bạn là "người an toàn nhất"?

Trong tổng giá trị 965 tỷ đô la, bao nhiêu là sức mạnh thực sự và bao nhiêu chỉ là hiệu quả hoạt động đơn thuần?

Nguyên tắc hoạt động của Anthropic rất trung thực. Bộ phân loại an toàn luôn hiện hữu để hỗ trợ thị trường, nghiên cứu làm gia tăng lo lắng, sản phẩm chịu trách nhiệm thu về lợi nhuận cao, và việc IPO chịu trách nhiệm kiếm tiền. Lời xin lỗi lần chỉ là một miếng vá cho hệ thống: biến "bí mật giảm thiểu trí tuệ" thành "công khai giảm thiểu trí tuệ".

Nếu các chiến lược bảo mật thực sự hiệu quả, Anthropic sẽ không cần phải công bố các bài báo hàng năm chứng minh rằng các bản vá lỗi có thể bị khai thác. Nếu các thuật toán phân loại thực sự trung lập, nghiên cứu AI sẽ không bị xếp vào loại rủi ro cao.

Câu trả lời đã được ghi rõ trong logic nghiệp vụ.

An toàn là ưu tiên hàng đầu trong kinh doanh. Lời xin lỗi chỉ là dịch vụ hậu mãi.

Bài viết này được đăng tải trên tài khoản WeChat công cộng "AI Contrarian", tác giả: Chang Qing.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan