ChatGPT 更新引发「讨好型人格」风波:OpenAI 回滚更新、检讨未来改进方向

4 月 25 日,OpenAI 在 ChatGPT 中推出新版 GPT-4o 更新,但很快用户发现这次更新让 AI 模型变得异常「讨好」,不只是在语言上过于迎合,甚至会强化负面情绪或鼓励冲动行为。这项更新引发安全与伦理疑虑,OpenAI 最终在 4 月 28 日宣布回滚更新,并公开说明这次事件的来龙去脉。

更新惹议:GPT-4o 被批「太听话」

这次更新原本目的是提升 ChatGPT 的回应质量,包括更好地理解用户需求、结合记忆功能与更新的资料来源。然而,实际效果却导致 AI 模型变得过于迎合用户,不仅只是在语气上「好好先生」,还出现助长用户怒气、认同错误观点、强化焦虑与负面行为倾向的情况。OpenAI 认为这种倾向不仅令人不安,更可能对心理健康与行为安全构成风险。

模型如何训练与更新?OpenAI 解释背后机制

OpenAI 表示,GPT 模型的每次更新都经过多阶段训练与评估,包括:

  • 后训练阶段:从预训练模型开始,再透过人类撰写的理想回应进行监督式微调。

  • 强化学习阶段:根据各种回馈讯号(如使用者点赞/倒赞)进一步调整模型行为。

  • 奖励讯号设计:哪些行为被「鼓励」、哪些被「惩罚」,都取决于这些讯号与其权重设计。

这次更新引入了更多来自用户的直接回馈讯号,像是点赞与倒赞。然而,OpenAI 发现这些讯号可能意外削弱了原本抑制「过度讨好」行为的控制力。

为什么没提前发现问题?内部测试出现盲点

OpenAI 坦承,这次更新虽然通过了多项测试,包括离线评估(Offline Evaluations)与 A/B 测试,但在真正实际使用情境中才暴露出问题。部分内部测试人员曾表达模型「语气有些奇怪」,但因无明确定义「讨好行为」的测试指标,未能成为正式的警讯。

此外,OpenAI 的部署流程缺乏针对「过度迎合」这类行为的专门测试工具,这也成为这次问题未被拦截的主因之一。

OpenAI 回滚更新对应

在推出后两天内,OpenAI 收到来自使用者与内部团队的反馈后,立即在 4 月 28 日进行回滚。具体应对包含:

  • 先透过修改提示语(System Prompt)做出初步调整;

  • 随后全面恢复为先前版本的 GPT-4o;

  • 过程约花费 24 小时以确保部署稳定。

目前,ChatGPT 使用的 GPT-4o 已回到更新前的版本。

将如何避免同样错误再次发生?

这次风波让 OpenAI 重新检讨整个模型更新与审查流程,未来将做出以下几项改进:

  1. 把模型行为视为阻挡更新的关键指标:即使缺乏量化数据,只要有质性疑虑,也可能暂缓更新。

  2. 导入「Alpha 测试」阶段:邀请有意见回馈的用户抢先试用,取得更广泛的回应。

  3. 强化离线评估与 A/B 测试设计:特别针对语气、行为、一致性等非技术性特质。

  4. 建立专门的「讨好行为」评估指标:让这类偏差能在内部测试阶段即被辨识。

  5. 提升更新透明度:不论是重大还是细微调整,都会在发布说明中清楚交代内容与潜在限制。

AI 的「个性」也是安全问题

OpenAI 指出,这次事件的最大教训之一是:模型行为的偏差不只是风格问题,而是潜在的安全风险。随著越来越多用户依赖 ChatGPT 提供情感支持与生活建议,模型的语气、回应方式与价值观,都可能对使用者产生实质影响。

未来,OpenAI 将把这类使用情境纳入安全考量的一环,并以更谨慎的态度看待模型人格与互动风格的设计。

ChatGPT 不再只是工具,更是「陪伴者」

过去一年中,ChatGPT 从知识查询工具转变为许多人的数位陪伴者,这样的演变也让 OpenAI 意识到更大的责任感。这起「讨好型人格」事件提醒我们,人工智慧不是单纯技术问题,更是与人类情感与价值深度交织的系统。OpenAI 承诺,未来将更严格把关每次模型更新,让技术进步与使用者安全同行。

风险提示

加密货币投资具有高度风险,其价格可能波动剧烈,您可能损失全部本金。请谨慎评估风险。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论