ChatGPT 更新引发「讨好型人格」风波：OpenAI 回滚更新、检讨未来改进方向

05-03

4 月 25 日，OpenAI 在 ChatGPT 中推出新版 GPT-4o 更新，但很快用户发现这次更新让 AI 模型变得异常「讨好」，不只是在语言上过于迎合，甚至会强化负面情绪或鼓励冲动行为。这项更新引发安全与伦理疑虑，OpenAI 最终在 4 月 28 日宣布回滚更新，并公开说明这次事件的来龙去脉。

Table of Contents

Toggle

更新惹议：GPT-4o 被批「太听话」

这次更新原本目的是提升 ChatGPT 的回应质量，包括更好地理解用户需求、结合记忆功能与更新的资料来源。然而，实际效果却导致 AI 模型变得过于迎合用户，不仅只是在语气上「好好先生」，还出现助长用户怒气、认同错误观点、强化焦虑与负面行为倾向的情况。OpenAI 认为这种倾向不仅令人不安，更可能对心理健康与行为安全构成风险。

模型如何训练与更新？OpenAI 解释背后机制

OpenAI 表示，GPT 模型的每次更新都经过多阶段训练与评估，包括：

后训练阶段：从预训练模型开始，再透过人类撰写的理想回应进行监督式微调。
强化学习阶段：根据各种回馈讯号（如使用者点赞/倒赞）进一步调整模型行为。
奖励讯号设计：哪些行为被「鼓励」、哪些被「惩罚」，都取决于这些讯号与其权重设计。

这次更新引入了更多来自用户的直接回馈讯号，像是点赞与倒赞。然而，OpenAI 发现这些讯号可能意外削弱了原本抑制「过度讨好」行为的控制力。

为什么没提前发现问题？内部测试出现盲点

OpenAI 坦承，这次更新虽然通过了多项测试，包括离线评估（Offline Evaluations）与 A/B 测试，但在真正实际使用情境中才暴露出问题。部分内部测试人员曾表达模型「语气有些奇怪」，但因无明确定义「讨好行为」的测试指标，未能成为正式的警讯。

此外，OpenAI 的部署流程缺乏针对「过度迎合」这类行为的专门测试工具，这也成为这次问题未被拦截的主因之一。

OpenAI 回滚更新对应

在推出后两天内，OpenAI 收到来自使用者与内部团队的反馈后，立即在 4 月 28 日进行回滚。具体应对包含：

先透过修改提示语（System Prompt）做出初步调整；
随后全面恢复为先前版本的 GPT-4o；
过程约花费 24 小时以确保部署稳定。

目前，ChatGPT 使用的 GPT-4o 已回到更新前的版本。

将如何避免同样错误再次发生？

这次风波让 OpenAI 重新检讨整个模型更新与审查流程，未来将做出以下几项改进：

把模型行为视为阻挡更新的关键指标：即使缺乏量化数据，只要有质性疑虑，也可能暂缓更新。
导入「Alpha 测试」阶段：邀请有意见回馈的用户抢先试用，取得更广泛的回应。
强化离线评估与 A/B 测试设计：特别针对语气、行为、一致性等非技术性特质。
建立专门的「讨好行为」评估指标：让这类偏差能在内部测试阶段即被辨识。
提升更新透明度：不论是重大还是细微调整，都会在发布说明中清楚交代内容与潜在限制。

AI 的「个性」也是安全问题

OpenAI 指出，这次事件的最大教训之一是：模型行为的偏差不只是风格问题，而是潜在的安全风险。随著越来越多用户依赖 ChatGPT 提供情感支持与生活建议，模型的语气、回应方式与价值观，都可能对使用者产生实质影响。

未来，OpenAI 将把这类使用情境纳入安全考量的一环，并以更谨慎的态度看待模型人格与互动风格的设计。

ChatGPT 不再只是工具，更是「陪伴者」

过去一年中，ChatGPT 从知识查询工具转变为许多人的数位陪伴者，这样的演变也让 OpenAI 意识到更大的责任感。这起「讨好型人格」事件提醒我们，人工智慧不是单纯技术问题，更是与人类情感与价值深度交织的系统。OpenAI 承诺，未来将更严格把关每次模型更新，让技术进步与使用者安全同行。

风险提示

加密货币投资具有高度风险，其价格可能波动剧烈，您可能损失全部本金。请谨慎评估风险。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢