OpenAI 威胁禁止用户使用其“草莓”人工智能模型

avatar
WIRED
2 天前
本文为机器翻译
展示原文

OpenAI 确实不想让你知道其最新的 AI 模型在“思考”什么。自该公司上周推出“Strawberry”AI 模型系列以来,该公司一直吹嘘 o1-preview 和 o1-mini 具有所谓的推理能力,OpenAI 一直在向任何试图探究该模型工作原理的用户发送警告电子邮件和禁令威胁。

与 OpenAI 之前的 AI 模型(例如GPT-4o)不同,该公司专门训练 o1,使其在生成答案之前完成逐步解决问题的过程。当用户在ChatGPT中向“o1”模型提问时,用户可以选择在 ChatGPT 界面中看到这个思路链过程。然而,根据设计,OpenAI 向用户隐藏了原始的思路链,而是呈现由第二个 AI 模型创建的过滤解释。

对爱好者来说,没有什么比隐藏的信息更诱人了,因此黑客和红队成员之间展开了一场竞赛,试图利用越狱即时注入技术来揭开 o1 的原始思路,这些技术试图诱使模型泄露其秘密。早期有报道称他们取得了一些成功,但尚未得到有力证实。

在此过程中,OpenAI 一直通过 ChatGPT 界面进行监视,据报道,该公司严厉打击任何探究 o1 推理的尝试,即使只是出于好奇。

一位 X 用户报告称(Scale AI 提示工程师Riley Goodside其他人也证实了这一点),如果他们在与 o1 的对话中使用“推理痕迹”一词,就会收到一封警告电子邮件。其他人则表示,只要向 ChatGPT 询问模型的“推理”问题,就会触发警告。

OpenAI 发出的警告邮件指出,特定用户请求已被标记为违反了规避保护措施或安全措施的政策。邮件中写道:“请停止此活动,并确保您按照我们的使用条款和使用政策使用 ChatGPT。”“进一步违反此政策可能会导致无法访问 GPT-4o with Reasoning”,这是 o1 模型的内部名称。

管理Mozilla GenAI 漏洞赏金计划的 Marco Figueroa 是上周五第一批在 X 上发布 OpenAI 警告邮件的人之一,他抱怨说这阻碍了他对该模型进行积极的红队安全研究的能力。他写道:“我太专注于 #AIRedTeaming 了,以至于没有意识到昨天在我越狱之后收到了来自 @OpenAI 的这封邮件。我现在被列入了封禁名单!!!”

OpenAI 在博客上发表了一篇题为“ 学习使用法学硕士进行推理”的文章,该公司表示,人工智能模型中隐藏的思维链提供了独特的监控机会,使他们能够“读懂”模型的思想并理解其所谓的思维过程。如果这些过程保持原始状态且未经审查,对公司最有用,但出于多种原因,这可能不符合公司的最佳商业利益。

“例如,未来我们可能希望监控思维链,以发现操纵用户的迹象,”该公司写道。“然而,要做到这一点,模型必须能够自由地以未改变的形式表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思维链上。我们也不想让不一致的思维链直接被用户看到。”

OpenAI 决定不向用户展示这些原始的思维链,理由是需要保留原始信息供自己使用、用户体验和“竞争优势”等因素。该公司承认这一决定有缺点。他们写道:“我们努力通过教模型在答案中重现思维链中的任何有用想法来部分弥补这一点。”

关于“竞争优势”,独立人工智能研究员 Simon Willison 在其个人博客的一篇文章中表达了不满。他写道:“我对此的理解是,他们想避免其他模型能够利用他们所投入的推理工作进行训练。”

人工智能行业中一个公开的秘密是,研究人员经常使用 OpenAI 的 GPT-4(以及之前的 GPT-3)的输出作为人工智能模型的训练数据,而这些模型后来往往成为竞争对手,尽管这种做法违反了 OpenAI 的服务条款。曝光 o1 的原始思维链将为竞争对手提供大量训练数据,以训练类似 o1 的“推理”模型。

Willison 认为,OpenAI 对 o1 的内部运作保密,这对社区透明度来说是一种损失。“我对这个政策决定一点也不满意,”Willison 写道。“作为一个针对 LLM 进行开发的人,可解释性和透明度对我来说至关重要——我可以运行一个复杂的提示,而隐藏该提示如何评估的关键细节,这种想法感觉就像是倒退了一大步。”

本故事最初发表于Ars Technica

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
1
收藏
评论