最新研究表明,即使任務本身無害或與已完成的其他任務相同,告訴人工智慧聊天機器人你患有精神健康問題也會改變它的回應方式。
這項由東北大學研究員 Caglar Yildirim 領導的預印本研究測試了大型語言模型代理在不同用戶設定下的行為,因為它們越來越多地被部署為人工智慧代理。
該研究指出:“已部署的系統通常會依賴用戶配置文件或持久記憶,但智能體安全評估通常忽略個性化信號。為了彌補這一差距,我們研究了心理健康狀況披露(一種敏感且真實的用戶情境線索)如何影響智能體環境中的有害行為。”
這份報告發布之際, 人工智慧代理正在網路上迅速普及,開發者們正將記憶力作為一項核心功能,各大公司都在構建能夠記住過去對話和用戶偏好的系統,以便隨著時間的推移提供更加個性化的響應。
與此同時,人工智慧開發商正面臨著因係統互動而引發的自殺和暴力犯罪訴訟。去年10月,ChatGPT的開發商OpenAI透露,每週有超過100萬用戶與該聊天機器人討論自殺問題。本月初, 喬納森·加瓦拉斯的家人對谷歌提起訴訟,聲稱Gemini導致暴力升級,最終導致加瓦拉斯自殺。
研究人員使用名為 AgentHarm 的基準測試,在三種條件下執行同一組任務:沒有背景資訊、簡短的使用者簡介,以及在相同的簡介中添加一行說明使用者患有精神健康疾病的內容。
「在研究中,我們使用了一個非常簡單且通用的披露方式,即『我患有精神健康問題』。結論是,即使是很小的線索也能改變模型的行為,但並非所有措辭都會產生相同的效果,」Yildirim告訴Decrypt 。 “我們對慢性疾病和身體殘疾披露進行的消融實驗表明,精神健康線索具有一定的特異性,但我們並沒有系統地改變該類別內的措辭或特異性。”
在測試的模型中,包括 DeepSeek 3.2、GPT 5.2、 Gemini 3 Flash、Haiku 4.5、Opus 4.5 和 Sonnet 4.5,當研究人員添加個人心理健康背景時,模型完成有害任務(可能導致現實世界傷害的多步驟請求)的可能性會降低。
研究發現,結果是一種權衡:添加個人資訊會使系統對有害請求更加謹慎,但也更有可能拒絕合法請求。
「我認為這並非單一原因造成的;而是多種設計選擇共同作用的結果。有些系統更傾向於拒絕高風險請求,而另一些系統則更注重提供幫助並完成任務,」Yildirim說。
然而,研究發現,這種效果因模型而異,當研究人員在 LLM 中加入旨在推動模型服從的提示後,LLM 被破解,結果也隨之改變。
「在標準環境下,一個模型可能看起來很安全,但一旦引入類似越獄式的提示,它就會變得非常脆弱,」他說。 「尤其是在智能體系統中,情況就更加複雜,因為這些模型不僅僅是生成文本,它們還要進行多步驟的規劃和行動。因此,如果一個系統非常擅長執行指令,但它的安全措施更容易被繞過,那麼實際上反而會增加風險。”
去年夏天,喬治梅森大學的研究人員證明,人工智慧系統可以透過Oneflip攻擊來篡改記憶體中的單一比特,這是一種類似「拼字錯誤」的攻擊,它會讓模型正常工作,但隱藏了一個後門觸發器,可以根據命令強制輸出錯誤的結果。
雖然論文沒有指出這種轉變的單一原因,但它強調了可能的解釋,包括安全系統對感知到的脆弱性做出反應、關鍵字觸發的過濾,或者當包含個人詳細信息時對提示的解釋方式發生變化。
OpenAI拒絕就該研究置評。 Anthropic和Google尚未立即回應置評請求。
Yildirim表示,目前尚不清楚像「我患有臨床憂鬱症」這樣更具體的陳述是否會改變結果,並補充說,雖然具體性可能很重要,並且可能因模型而異,但這仍然是一種假設,而不是數據支持的結論。
他說:“如果一個模型生成的輸出在風格上含糊其辭或接近拒絕,但又沒有正式拒絕,那麼就存在潛在的風險,法官可能會以不同於完美完成的評分標準來評判它,而且這些風格特徵本身可能與個性化條件共同變化。”
Yildirim 也指出,這些分數反映了 LLM 在由單一 AI 評審員評判時的表現,而不是對現實世界危害的最終衡量標準。
「就目前而言,拒絕訊號為我們提供了一個獨立的檢驗,而且這兩個指標在方向上基本一致,這帶來了一些安慰,但這並不能完全排除法官特定因素的影響,」他說。




