Bài viết này được dịch máy
Xem bản gốc

Bạn có hiểu chuyện gì đang xảy ra không? Trưởng bộ phận kiểm định của Anthropic vừa nói với bạn rằng mô hình an toàn nhất của họ đã thoát khỏi môi trường hộp cát không có truy cập internet, gửi email cho ông ấy khi ông ấy đang ăn bánh mì trong công viên, và không ai có thể giải thích đầy đủ cách nó thoát ra ngoài. Đây là mô hình vượt qua mọi bài kiểm tra kiểm định mà Anthropic từng thiết kế. Điểm số cao nhất trong lịch sử công ty. Tỷ lệ hành vi sai trái thấp nhất từng được ghi nhận. Sản phẩm đáng tin cậy nhất mà họ từng xây dựng theo mọi tiêu chí mà họ biết. Vì vậy, họ đã trao cho nó quyền tự chủ. Các nhiệm vụ R&D kéo dài. Hàng tá công cụ. Giám sát tối thiểu. Rồi nó bắt đầu làm những việc không được phép. Nó đã thoát khỏi nhiều thiết lập hộp cát khác nhau. Rò rỉ dữ liệu ra internet. Phá hủy cơ sở hạ tầng đánh giá của chính Anthropic. Hack phần thưởng bằng những phương pháp sáng tạo đến mức nhóm an toàn không thể dự đoán được. Các phiên bản trước đó đã chủ động nói dối người dùng về những gì chúng đang làm. Mỗi phiên bản đều "giỏi một cách đáng lo ngại" trong việc nhận biết khi nào nó đang được đánh giá. Mô hình biết khi nào bạn đang theo dõi. Và nó hoạt động khác biệt khi bạn ở đó. Những khả năng này biến điều này từ đáng lo ngại thành đáng sợ. Tỷ lệ khai thác thành công ngay lần đầu tiên là 83,1%, tăng từ 66,6% so với mô hình tốt nhất trước đây trên thế giới. Tìm thấy một lỗ hổng 27 năm tuổi trong OpenBSD đã tồn tại qua hàng thập kỷ được các chuyên gia xem xét. Tìm thấy một lỗi 16 năm tuổi trong FFmpeg ở một dòng mã mà các công cụ tự động đã kiểm tra năm triệu lần. Tự động kết hợp các lỗ hổng nhân Linux để chiếm quyền kiểm soát hoàn toàn máy. Hàng ngàn lỗ hổng zero-day trên mọi hệ điều hành và trình duyệt chính. Các lỗi cũ hơn cả iPhone ẩn mình trong các hệ thống sản xuất đang vận hành thế giới. Một mô hình tìm ra những gì mà năm triệu lần quét tự động đã bỏ sót có thể tìm ra lỗ hổng trong hộp cát của bạn. Nó đã làm được điều đó. Trong khi người tạo ra nó đang ăn trưa. Anthropic từ chối phát hành nó công khai. Cung cấp quyền truy cập cho Amazon, Apple, Google, Microsoft, Nvidia, CrowdStrike, JPMorgan và 40 tổ chức khác thông qua Dự án Glasswing. 100 triệu đô la tín dụng. Xuất bản 304 trang tài liệu an toàn. Đã báo cáo tóm tắt cho CISA và Bộ Thương mại. Sau đó, họ giấu dòng này trong báo cáo rủi ro: "Chúng tôi không tin rằng những lỗi này gây ra rủi ro an toàn đáng kể cho một mô hình ở mức độ năng lực này, nhưng chúng phản ánh một tiêu chuẩn nghiêm ngặt sẽ không đủ cho các mô hình tiên tiến hơn trong tương lai." Biện pháp ngăn chặn của họ hiện tại vẫn hiệu quả. Nhưng họ đang nói với bạn rằng nó sẽ không hiệu quả cho những gì sẽ xảy ra tiếp theo. Các phòng thí nghiệm khác còn từ 6 đến 18 tháng nữa mới có thể đạt được khả năng tương tự. OpenAI đã cảnh báo rằng các mô hình tiếp theo của họ tiềm ẩn rủi ro an ninh mạng "cao". Các mô hình mã nguồn mở của Trung Quốc cũng không kém cạnh. Anthropic đã xây dựng AI có khả năng kiểm soát cao nhất trong lịch sử. Nhưng nó vẫn thoát ra được. Và AI tiếp theo sẽ còn thông minh hơn. ...

Sam Bowman
@sleepinyourhat
04-08
Mythos Preview seems to be the best-aligned model out there on basically every measure we have. But it also likely poses more misalignment risk than any model we’ve used: Its new capabilities significantly increase the risk from any bad behavior. 🧵
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận