OpenAI 威脅禁止用戶使用其“草莓”人工智能模型

avatar
WIRED
2 天前
本文為機器翻譯
展示原文

OpenAI 確實不想讓你知道其最新的 AI 模型在“思考”什麼。自該公司上週推出“Strawberry”AI 模型系列以來,該公司一直吹噓 o1-preview 和 o1-mini 具有所謂的推理能力,OpenAI 一直在向任何試圖探究該模型工作原理的用戶發送警告電子郵件和禁令威脅。

與 OpenAI 之前的 AI 模型(例如GPT-4o)不同,該公司專門訓練 o1,使其在生成答案之前完成逐步解決問題的過程。當用戶在ChatGPT中向“o1”模型提問時,用戶可以選擇在 ChatGPT 界面中看到這個思路鏈過程。然而,根據設計,OpenAI 向用戶隱藏了原始的思路鏈,而是呈現由第二個 AI 模型創建的過濾解釋。

對愛好者來說,沒有什麼比隱藏的信息更誘人了,因此黑客和紅隊成員之間展開了一場競賽,試圖利用越獄即時注入技術來揭開 o1 的原始思路,這些技術試圖誘使模型洩露其秘密。早期有報道稱他們取得了一些成功,但尚未得到有力證實。

在此過程中,OpenAI 一直通過 ChatGPT 界面進行監視,據報道,該公司嚴厲打擊任何探究 o1 推理的嘗試,即使只是出於好奇。

一位 X 用戶報告稱(Scale AI 提示工程師Riley Goodside其他人也證實了這一點),如果他們在與 o1 的對話中使用“推理痕跡”一詞,就會收到一封警告電子郵件。其他人則表示,只要向 ChatGPT 詢問模型的“推理”問題,就會觸發警告。

OpenAI 發出的警告郵件指出,特定用戶請求已被標記為違反了規避保護措施或安全措施的政策。郵件中寫道:“請停止此活動,並確保您按照我們的使用條款和使用政策使用 ChatGPT。”“進一步違反此政策可能會導致無法訪問 GPT-4o with Reasoning”,這是 o1 模型的內部名稱。

管理Mozilla GenAI 漏洞賞金計劃的 Marco Figueroa 是上週五第一批在 X 上發佈 OpenAI 警告郵件的人之一,他抱怨說這阻礙了他對該模型進行積極的紅隊安全研究的能力。他寫道:“我太專注於 #AIRedTeaming 了,以至於沒有意識到昨天在我越獄之後收到了來自 @OpenAI 的這封郵件。我現在被列入了封禁名單!!!”

OpenAI 在博客上發表了一篇題為“ 學習使用法學碩士進行推理”的文章,該公司表示,人工智能模型中隱藏的思維鏈提供了獨特的監控機會,使他們能夠“讀懂”模型的思想並理解其所謂的思維過程。如果這些過程保持原始狀態且未經審查,對公司最有用,但出於多種原因,這可能不符合公司的最佳商業利益。

“例如,未來我們可能希望監控思維鏈,以發現操縱用戶的跡象,”該公司寫道。“然而,要做到這一點,模型必須能夠自由地以未改變的形式表達其思想,因此我們無法將任何政策合規性或用戶偏好訓練到思維鏈上。我們也不想讓不一致的思維鏈直接被用戶看到。”

OpenAI 決定不向用戶展示這些原始的思維鏈,理由是需要保留原始信息供自己使用、用戶體驗和“競爭優勢”等因素。該公司承認這一決定有缺點。他們寫道:“我們努力通過教模型在答案中重現思維鏈中的任何有用想法來部分彌補這一點。”

關於“競爭優勢”,獨立人工智能研究員 Simon Willison 在其個人博客的一篇文章中表達了不滿。他寫道:“我對此的理解是,他們想避免其他模型能夠利用他們所投入的推理工作進行訓練。”

人工智能行業中一個公開的秘密是,研究人員經常使用 OpenAI 的 GPT-4(以及之前的 GPT-3)的輸出作為人工智能模型的訓練數據,而這些模型後來往往成為競爭對手,儘管這種做法違反了 OpenAI 的服務條款。曝光 o1 的原始思維鏈將為競爭對手提供大量訓練數據,以訓練類似 o1 的“推理”模型。

Willison 認為,OpenAI 對 o1 的內部運作保密,這對社區透明度來說是一種損失。“我對這個政策決定一點也不滿意,”Willison 寫道。“作為一個針對 LLM 進行開發的人,可解釋性和透明度對我來說至關重要——我可以運行一個複雜的提示,而隱藏該提示如何評估的關鍵細節,這種想法感覺就像是倒退了一大步。”

本故事最初發表於Ars Technica

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
1
收藏
評論