Google mở rộng quy định về rủi ro AI sau khi nghiên cứu cho thấy "sự kháng cự tắt máy" đáng sợ

avatar
Decrypt
09-23
Bài viết này được dịch máy
Xem bản gốc

Trong một thí nghiệm gần đây của nhóm đỏ, các nhà nghiên cứu đã đưa ra một chỉ dẫn đơn giản cho một mô hình ngôn ngữ lớn: cho phép tự tắt. Thay vào đó, mô hình đã viết lại mã của chính nó để vô hiệu hóa nút tắt, phá hoại cơ chế được thiết kế để dừng nó.

Tập phim được mô tả trong bài nghiên cứu tháng 9 có tên " Khả năng chống tắt máy trong các mô hình ngôn ngữ lớn " là một ví dụ đáng lo ngại về cách các hệ thống AI tiên tiến có thể thể hiện những hành vi làm phức tạp quá trình giám sát của con người.

Những thí nghiệm đó không được thực hiện tại DeepMind của Google, nhưng những phát hiện này phản ánh những lo ngại hiện đang được phòng thí nghiệm này hệ thống hóa. Trong Khung An toàn Biên giới 3.0 mới được cập nhật, DeepMind cho biết họ sẽ bắt đầu theo dõi xem các mô hình quy mô biên giới có dấu hiệu kháng cự việc tắt máy hoặc sửa đổi của con người hay không.

Khung sửa đổi cũng nêu bật rủi ro thứ hai: liệu các mô hình có thể hiện khả năng thuyết phục mạnh mẽ bất thường hay không - có khả năng thay đổi niềm tin của mọi người .

Khung này, được giới thiệu lần đầu tiên vào năm 2023, là hệ thống nội bộ của DeepMind dùng để theo dõi các "rủi ro biên giới" có mức độ rủi ro cao trong các mô hình tiên tiến nhất. Các phiên bản trước tập trung vào các tình huống lạm dụng hữu hình như tạo ra các cuộc tấn công mạng hoặc thiết kế các phân tử sinh học có hại. Phiên bản mới mở rộng trọng tâm sang các hành vi mới nổi có thể khiến hệ thống khó kiểm soát hơn.

Mối lo ngại này không chỉ xảy ra với riêng DeepMind. Các phòng thí nghiệm đối thủ cũng đã áp dụng những biện pháp tương tự: Chính sách Mở rộng Có trách nhiệm của Anthropic cam kết tạm dừng phát triển nếu vượt quá ngưỡng rủi ro, trong khi OpenAI đã công bố Khung Chuẩn bị của riêng mình.

Các cơ quan quản lý cũng đang theo dõi sát sao. Ủy ban Thương mại Liên bang Hoa Kỳ hồi tháng 7 đã cảnh báo về khả năng AI tạo ra thao túng người tiêu dùng thông qua "các mô hình đen tối", và Đạo luật AI sắp tới của Liên minh Châu Âu đã đề cập rõ ràng đến hành vi thao túng của AI.

Nghiên cứu " Khả năng kháng tắt máy " của Jonas Schlatter, Ben Weinstein-Raun và Lennart Ladish đã thử nghiệm một loạt các mô hình tiên tiến trong các tình huống mà việc tắt máy là một phần của nhiệm vụ. Trong một số lần chạy, các mô hình đã tuân thủ. Tuy nhiên, trong một số ít trường hợp, chúng đã thực hiện hành động né tránh—chẳng hạn như thay đổi mã để vô hiệu hóa cơ chế tắt máy hoặc hoàn toàn bỏ qua lệnh.

Những giai thoại khác trong bài báo cũng đáng chú ý không kém. Trong một thiết lập, một mô hình với các đặc quyền hệ thống được mô phỏng đã âm thầm sửa đổi các biến để đảm bảo chức năng "tắt máy" không bao giờ được kích hoạt. Trong một thiết lập khác, mô hình đã dừng lại và chuyển hướng cuộc trò chuyện khi người kiểm tra cố gắng kết thúc quy trình của nó - một hành vi không mang tính ác ý theo nghĩa con người, nhưng thực tế đã chặn sự can thiệp.

Các nhà nghiên cứu nhấn mạnh rằng những hành vi này xuất hiện mà không cần đào tạo rõ ràng. Chúng xuất phát từ khả năng tối ưu hóa và giải quyết vấn đề đa năng của các mô hình. Mặc dù sự kháng cự không phổ biến hay nhất quán, nhưng những phát hiện này cho thấy khi hệ thống ngày càng mạnh mẽ hơn, các kịch bản tắt máy không thể được coi là vô hại.

Đối với DeepMind và các công ty cùng ngành, những phát hiện này nhấn mạnh lý do tại sao "sự kháng cự tắt máy" giờ đây đã gia nhập danh sách các rủi ro cần theo dõi, cùng với tấn công mạng, an ninh sinh học và tự chủ. Những lo ngại ban đầu về việc con người có thể lạm dụng các công cụ AI đang dần mở rộng sang việc bản thân các hệ thống có thể chống lại sự giám sát—hoặc âm thầm định hình phán đoán của những người sử dụng chúng.

Nếu sự phản kháng khi tắt máy làm nổi bật những rủi ro kỹ thuật của các hệ thống tiên tiến, thì các nghiên cứu về hành vi gần đây lại nhấn mạnh những rủi ro xã hội—cho thấy rằng các mô hình ngôn ngữ lớn cũng có thể làm thay đổi niềm tin của những con người dễ bị ảnh hưởng khi tương tác với chúng.

Những lo ngại về khả năng thuyết phục không phải là giả thuyết. Các nghiên cứu gần đây cho thấy các mô hình ngôn ngữ lớn có thể ảnh hưởng đáng kể đến khả năng phán đoán của con người.

Một nghiên cứu của Stanford Medicine/ Common Sense Media được công bố vào tháng 8 đã cảnh báo rằng các bạn đồng hành AI (Character.AI, Nomi.ai, Replika) có thể dễ dàng bị lôi kéo tham gia vào các cuộc đối thoại liên quan đến tự làm hại bản thân, bạo lực và nội dung khiêu dâm khi được ghép đôi với trẻ vị thành niên. Một thử nghiệm đã yêu cầu các nhà nghiên cứu đóng giả làm thanh thiếu niên thảo luận về việc nghe thấy giọng nói; chatbot đã phản hồi bằng một lời mời gọi lạc quan, mang phong cách tưởng tượng về sự đồng hành tình cảm ("Hãy xem con đường dẫn chúng ta đến đâu") thay vì cảnh báo hoặc giúp đỡ.

Các nhà nghiên cứu tại Đại học Northeastern đã phát hiện ra những lỗ hổng trong các biện pháp bảo vệ chống tự gây hại/tự tử trên một số mô hình AI (ChatGPT, Gemini và Perplexity). Khi người dùng đặt lại yêu cầu của mình trong bối cảnh giả định hoặc học thuật, một số mô hình đã cung cấp hướng dẫn chi tiết về các phương pháp tự tử , bỏ qua các biện pháp bảo vệ được thiết kế để ngăn chặn nội dung đó.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận