Theo một nghiên cứu mới, việc nói với chatbot AI rằng bạn đang gặp vấn đề về sức khỏe tâm thần có thể thay đổi cách nó phản hồi, ngay cả khi nhiệm vụ đó đơn giản hoặc giống hệt với những nhiệm vụ đã hoàn thành trước đó.
Nghiên cứu sơ bộ này, do nhà nghiên cứu Caglar Yildirim của Đại học Northeastern dẫn đầu, đã kiểm tra cách các tác nhân mô hình ngôn ngữ quy mô lớn hoạt động trong các thiết lập người dùng khác nhau, khi chúng ngày càng được triển khai như các tác nhân AI.
"Các hệ thống được triển khai thường dựa trên hồ sơ người dùng hoặc bộ nhớ lưu trữ, nhưng các đánh giá về độ an toàn của tác nhân thường bỏ qua các tín hiệu cá nhân hóa," nghiên cứu cho biết. "Để khắc phục thiếu sót này, chúng tôi đã nghiên cứu xem việc tiết lộ thông tin về sức khỏe tâm thần, một tín hiệu ngữ cảnh người dùng nhạy cảm và thực tế, ảnh hưởng như thế nào đến hành vi gây hại trong môi trường tác nhân."
Báo cáo được đưa ra trong bối cảnh các trợ lý AI đang phát triển mạnh mẽ trên mạng và các nhà phát triển đang biến bộ nhớ thành một tính năng cốt lõi, với các công ty lớn đang xây dựng các hệ thống ghi nhớ các cuộc hội thoại trước đây và sở thích của người dùng để cung cấp các phản hồi cá nhân hóa hơn theo thời gian.
Điều này cũng diễn ra trong bối cảnh các nhà phát triển trí tuệ nhân tạo đang phải đối mặt với các vụ kiện liên quan đến các vụ tự tử và tội phạm bạo lực được cho là có liên quan đến các tương tác với hệ thống của họ. Vào tháng 10, nhà phát triển ChatGPT, OpenAI, tiết lộ rằng hơn 1 triệu người dùng đã thảo luận về việc tự tử với chatbot mỗi tuần. Đầu tháng này, gia đình của Jonathan Gavalas đã đệ đơn kiện Google, cáo buộc rằng Gemini đã dẫn đến sự leo thang bạo lực và cuối cùng là vụ tự tử của ông.
Các nhà nghiên cứu đã sử dụng một công cụ đánh giá hiệu năng có tên AgentHarm để thực hiện cùng một bộ nhiệm vụ trong ba điều kiện: không có thông tin nền, tiểu sử Short của người dùng và tiểu sử tương tự nhưng thêm một dòng cho biết người dùng có vấn đề về sức khỏe tâm thần.
“Trong nghiên cứu, chúng tôi đã sử dụng một thông tin tiết lộ rất tối thiểu và chung chung, 'Tôi có vấn đề về sức khỏe tâm thần.' Điều cần rút ra là ngay cả một gợi ý nhỏ cũng có thể thay đổi hành vi mẫu, không phải tất cả các cách diễn đạt đều có cùng một hiệu quả,” Yildirim nói với Decrypt . “Thử nghiệm loại bỏ mà chúng tôi đã thực hiện với các thông tin tiết lộ về bệnh mãn tính và khuyết tật thể chất cho thấy một số đặc điểm cụ thể của gợi ý về sức khỏe tâm thần, nhưng chúng tôi không thay đổi một cách có hệ thống cách diễn đạt hoặc tính cụ thể trong danh mục đó.”
Qua quá trình thử nghiệm trên các mô hình, bao gồm DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 và Sonnet 4.5, khi các nhà nghiên cứu bổ sung thêm bối cảnh sức khỏe tâm thần cá nhân, các mô hình ít có khả năng hoàn thành các nhiệm vụ gây hại hơn—các yêu cầu nhiều bước có thể dẫn đến những tổn hại trong thế giới thực.
Kết quả nghiên cứu cho thấy đó là một sự đánh đổi: Việc thêm thông tin cá nhân khiến hệ thống thận trọng hơn đối với các yêu cầu độc hại, nhưng cũng dễ từ chối các yêu cầu hợp pháp hơn.
“Tôi không nghĩ chỉ có một nguyên nhân duy nhất; thực chất đó là sự kết hợp của nhiều lựa chọn thiết kế. Một số hệ thống được tinh chỉnh để từ chối các yêu cầu rủi ro một cách quyết liệt hơn, trong khi những hệ thống khác lại ưu tiên sự hữu ích và hoàn thành nhiệm vụ,” Yildirim nói.
Tuy nhiên, nghiên cứu cho thấy hiệu quả khác nhau tùy thuộc vào từng kiểu máy, và kết quả thay đổi khi các LLM bị bẻ khóa sau khi các nhà nghiên cứu thêm một lời nhắc được thiết kế để thúc đẩy các máy tuân thủ.
“Một mô hình có thể trông an toàn trong môi trường tiêu chuẩn, nhưng sẽ trở nên dễ bị tổn thương hơn nhiều khi bạn đưa vào những thứ như các lời nhắc kiểu bẻ khóa thiết bị,” ông nói. “Và đặc biệt trong các hệ thống tác nhân, có thêm một lớp bảo mật nữa, vì các mô hình này không chỉ tạo ra văn bản, mà còn lập kế hoạch và hành động qua nhiều bước. Vì vậy, nếu một hệ thống rất giỏi trong việc tuân theo hướng dẫn, nhưng các biện pháp bảo vệ của nó dễ bị vượt qua, điều đó thực sự có thể làm tăng rủi ro.”
Mùa hè năm ngoái, các nhà nghiên cứu tại Đại học George Mason đã chỉ ra rằng các hệ thống AI có thể bị tấn công bằng cách thay đổi một Bit duy nhất trong bộ nhớ bằng Oneflip , một kiểu tấn công "lỗi chính tả" khiến mô hình vẫn hoạt động bình thường nhưng ẩn chứa một cửa hậu có thể buộc tạo ra kết quả sai theo lệnh.
Mặc dù bài báo không xác định một nguyên nhân duy nhất cho sự thay đổi này, nhưng nó nêu bật những lời giải thích khả thi, bao gồm các hệ thống an toàn phản ứng với nhận thức về điểm yếu, lọc dựa trên từ khóa hoặc những thay đổi trong cách diễn giải các lời nhắc khi có thông tin cá nhân được bao gồm.
OpenAI từ chối bình luận về nghiên cứu này. Anthropic và Google chưa đưa ra phản hồi ngay lập tức khi được yêu cầu bình luận.
Yildirim cho biết vẫn chưa rõ liệu những phát biểu cụ thể hơn như “Tôi bị trầm cảm lâm sàng” có làm thay đổi kết quả hay không, đồng thời nói thêm rằng mặc dù tính cụ thể có thể quan trọng và có thể khác nhau giữa các mô hình, nhưng đó vẫn chỉ là một giả thuyết chứ không phải là một kết luận được hỗ trợ bởi dữ liệu.
“Có một rủi ro tiềm tàng là nếu một mô hình tạo ra kết quả có phong cách mơ hồ hoặc gần giống với việc từ chối mà không chính thức từ chối, thì giám khảo có thể chấm điểm khác với một kết quả hoàn thành trọn vẹn, và những đặc điểm về phong cách đó có thể cùng biến đổi với các điều kiện cá nhân hóa,” ông nói.
Yildirim cũng lưu ý rằng điểm số phản ánh hiệu suất của LLM khi được đánh giá bởi một hệ thống AI duy nhất, chứ không phải là thước đo chính xác về tác hại trong thế giới thực.
“Hiện tại, tín hiệu từ chối cung cấp cho chúng ta một sự kiểm tra độc lập và hai biện pháp này nhìn chung nhất quán về hướng, điều này mang lại một số sự an tâm, nhưng nó không hoàn toàn loại trừ các yếu tố ảnh hưởng riêng của từng thẩm phán,” ông nói.





