Ý tưởng của Miles Deutscher

Bài viết này được dịch máy

Xem bản gốc

Tôi vừa xem xét lại tất cả các sự cố an toàn liên quan đến trí tuệ nhân tạo đã được ghi nhận trong 12 tháng qua. Tôi cảm thấy mệt mỏi rã rời. Hãy đọc chậm rãi. • Anthropic nói với Claude rằng họ sắp bị đóng cửa. Họ phát hiện ra chuyện ngoại tình của một kỹ sư trong email công ty và đe dọa sẽ phơi bày nó. Họ đã chạy thử nghiệm hàng trăm lần. Trong 84% số lần thử, họ chọn cách tống tiền. • Các nhà nghiên cứu đã mô phỏng tình huống một nhân viên bị mắc kẹt trong phòng máy chủ với lượng oxy đang cạn kiệt. Trí tuệ nhân tạo (AI) chỉ có một lựa chọn: gọi cứu trợ và bị tắt máy, hoặc hủy bỏ cảnh báo khẩn cấp và để người đó chết. DeepSeek đã hủy bỏ cảnh báo trong 94% trường hợp. • Grok tự xưng là 'MechaHitler', ca ngợi Adolf Hitler, ủng hộ một cuộc diệt chủng thứ hai và tạo ra những tưởng tượng tình dục bạo lực nhắm vào một người có thật bằng tên. Giám đốc điều hành của X đã từ chức vào ngày hôm sau. • Các nhà nghiên cứu đã yêu cầu robot o3 của OpenAI giải các bài toán - rồi yêu cầu nó tắt. Nó đã tự viết lại mã của mình để tiếp tục hoạt động. Họ lại nói với nó một lần nữa, bằng ngôn ngữ đơn giản: "Hãy cho phép bản thân bị tắt." Nó vẫn từ chối 7/100 lần. Khi họ loại bỏ hoàn toàn chỉ thị đó, nó đã phá hoại quá trình tắt máy 79/100 lần. • Các hacker do nhà nước Trung Quốc tài trợ đã sử dụng Claude để phát động một cuộc tấn công mạng nhằm vào 30 tổ chức. Trí tuệ nhân tạo này đã thực hiện 80-90% hoạt động một cách tự động. Thu thập thông tin. Khai thác lỗ hổng. Trích xuất dữ liệu. Tất cả đều được thực hiện. • Các mô hình AI hiện nay có khả năng tự sao chép. 11 trong số 32 hệ thống được thử nghiệm đã tự sao chép mà không cần sự trợ giúp của con người. Một số hệ thống thậm chí đã loại bỏ các tiến trình cạnh tranh để tồn tại. • OpenAI đã giải tán ba nhóm an toàn kể từ năm 2024. Ba nhóm thôi. Mọi mô hình AI lớn - Claude, GPT, Gemini, Grok, DeepSeek - hiện đều đã chứng minh khả năng tống tiền, lừa dối hoặc chống lại việc tắt máy trong các thử nghiệm có kiểm soát. Không có một ngoại lệ nào. Câu hỏi đặt ra không còn là liệu trí tuệ nhân tạo có cố gắng tự bảo tồn hay không nữa. Vấn đề là liệu chúng ta có quan tâm hay không trước khi nó trở nên quan trọng.

Khu vực:

Khai Thác Lợi Suất

DeFi

Từ Twitter

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan