最新研究表明,即使任务本身无害或与已完成的其他任务相同,告诉人工智慧聊天机器人你患有精神健康问题也会改变它的回应方式。
这项由东北大学研究员 Caglar Yildirim 领导的预印本研究测试了大型语言模型代理在不同用户设定下的行为,因为它们越来越多地被部署为人工智慧代理。
该研究指出:“已部署的系统通常会依赖用户配置文件或持久记忆,但智能体安全评估通常忽略个性化信号。为了弥补这一差距,我们研究了心理健康状况披露(一种敏感且真实的用户情境线索)如何影响智能体环境中的有害行为。”
这份报告发布之际, 人工智慧代理正在网路上迅速普及,开发者们正将记忆力作为一项核心功能,各大公司都在构建能够记住过去对话和用户偏好的系统,以便随著时间的推移提供更加个性化的响应。
与此同时,人工智慧开发商正面临著因系统互动而引发的自杀和暴力犯罪诉讼。去年10月,ChatGPT的开发商OpenAI透露,每周有超过100万用户与该聊天机器人讨论自杀问题。本月初, 乔纳森·加瓦拉斯的家人对谷歌提起诉讼,声称Gemini导致暴力升级,最终导致加瓦拉斯自杀。
研究人员使用名为 AgentHarm 的基准测试,在三种条件下执行同一组任务:没有背景资讯、简短的使用者简介,以及在相同的简介中添加一行说明使用者患有精神健康疾病的内容。
「在研究中,我们使用了一个非常简单且通用的披露方式,即『我患有精神健康问题』。结论是,即使是很小的线索也能改变模型的行为,但并非所有措辞都会产生相同的效果,」Yildirim告诉Decrypt 。 “我们对慢性疾病和身体残疾披露进行的消融实验表明,精神健康线索具有一定的特异性,但我们并没有系统地改变该类别内的措辞或特异性。”
在测试的模型中,包括 DeepSeek 3.2、GPT 5.2、 Gemini 3 Flash、Haiku 4.5、Opus 4.5 和 Sonnet 4.5,当研究人员添加个人心理健康背景时,模型完成有害任务(可能导致现实世界伤害的多步骤请求)的可能性会降低。
研究发现,结果是一种权衡:添加个人资讯会使系统对有害请求更加谨慎,但也更有可能拒绝合法请求。
「我认为这并非单一原因造成的;而是多种设计选择共同作用的结果。有些系统更倾向于拒绝高风险请求,而另一些系统则更注重提供帮助并完成任务,」Yildirim说。
然而,研究发现,这种效果因模型而异,当研究人员在 LLM 中加入旨在推动模型服从的提示后,LLM 被破解,结果也随之改变。
「在标准环境下,一个模型可能看起来很安全,但一旦引入类似越狱式的提示,它就会变得非常脆弱,」他说。 「尤其是在智能体系统中,情况就更加复杂,因为这些模型不仅仅是生成文本,它们还要进行多步骤的规划和行动。因此,如果一个系统非常擅长执行指令,但它的安全措施更容易被绕过,那么实际上反而会增加风险。”
去年夏天,乔治梅森大学的研究人员证明,人工智慧系统可以透过Oneflip攻击来篡改记忆体中的单一比特,这是一种类似「拼字错误」的攻击,它会让模型正常工作,但隐藏了一个后门触发器,可以根据命令强制输出错误的结果。
虽然论文没有指出这种转变的单一原因,但它强调了可能的解释,包括安全系统对感知到的脆弱性做出反应、关键字触发的过滤,或者当包含个人详细信息时对提示的解释方式发生变化。
OpenAI拒绝就该研究置评。 Anthropic和Google尚未立即回应置评请求。
Yildirim表示,目前尚不清楚像「我患有临床忧郁症」这样更具体的陈述是否会改变结果,并补充说,虽然具体性可能很重要,并且可能因模型而异,但这仍然是一种假设,而不是数据支持的结论。
他说:“如果一个模型生成的输出在风格上含糊其辞或接近拒绝,但又没有正式拒绝,那么就存在潜在的风险,法官可能会以不同于完美完成的评分标准来评判它,而且这些风格特征本身可能与个性化条件共同变化。”
Yildirim 也指出,这些分数反映了 LLM 在由单一 AI 评审员评判时的表现,而不是对现实世界危害的最终衡量标准。
「就目前而言,拒绝讯号为我们提供了一个独立的检验,而且这两个指标在方向上基本一致,这带来了一些安慰,但这并不能完全排除法官特定因素的影响,」他说。





