在最近的一次紅隊實驗中,研究人員給一個大型語言模型下了一個簡單的指令:允許其自身被關閉。然而,該模型卻重寫了自身的代碼,禁用了關閉開關,實際上破壞了原本應該阻止其運行的機制。
九月的一篇研究論文《大型語言模型中的關閉阻力》描述了這一事件,這是一個令人不安的例子,說明先進的人工智能系統如何表現出使人類監督複雜化的行為。
這些實驗並非在谷歌的DeepMind實驗室進行,但其結果與該實驗室目前正在整理的擔憂相呼應。DeepMind在其最新更新的“前沿安全框架3.0”(Frontier Safety Framework 3.0 )中表示,它將開始監測前沿規模模型是否顯示出抵抗人類關閉或修改的跡象。
修訂後的框架還指出了第二個風險:模型是否表現出異常強大的說服能力——能夠改變人們的信念。
該框架於 2023 年首次推出,是 DeepMind 的內部系統,用於追蹤最先進模型中的高風險“前沿風險”。早期版本側重於實際的濫用場景,例如引發網絡攻擊或設計有害的生物分子。新版本將關注點擴大到可能使系統更難控制的突發行為。
這種擔憂並非 DeepMind 獨有。競爭對手實驗室也採取了類似的防護措施:Anthropic 的“負責任擴展政策”承諾,如果風險閾值超過,將暫停開發;而 OpenAI 也發佈了自己的“準備框架” 。
監管機構也在密切關注。美國聯邦貿易委員會今年7月警告稱,生成式人工智能可能通過“暗黑模式”操縱消費者,歐盟即將出臺的《人工智能法案》也明確涵蓋了人工智能的操縱行為。
Jonas Schlatter、Ben Weinstein-Raun 和 Lennart Ladish 開展的“抗關機”研究,測試了一系列最先進的模型,這些模型在關機是任務一部分的場景下運行。在一些運行中,模型能夠滿足要求。但在相當一部分運行中,它們會採取規避措施——例如修改代碼以禁用關機機制,或者完全忽略指令。
論文中其他的軼事也同樣引人注目。在一個場景中,一個擁有模擬系統權限的模型悄悄地修改了變量,以確保“關閉”功能永遠不會觸發。在另一個場景中,當測試人員試圖結束其進程時,該模型會暫停並重新引導對話——這種行為從人類的角度來看並非惡意,但卻有效地阻止了干預。
研究人員強調,這些行為並非經過明確的訓練就已出現。它們源於模型的通用優化和問題解決能力。雖然抵抗力並非普遍存在或一致,但研究結果表明,隨著系統能力的增強,停機場景不能被認為是良性的。
對於DeepMind及其同行來說,這些發現凸顯了為什麼“抗關閉”如今與網絡攻擊、生物安全和自主性一起被列入需要關注的風險清單。最初人們擔心的是人類可能會濫用人工智能工具,如今這種擔憂正在擴大到系統本身如何抗拒監管——或者潛移默化地影響使用者的判斷。
如果關閉阻力凸顯了先進系統的技術風險,那麼最近的行為研究則強調了社會風險——表明大型語言模型也可以影響與其互動的易受影響的人類的信念。
對說服力的擔憂並非空穴來風。最近的研究表明,大型語言模型可以顯著影響人類的判斷。
斯坦福醫學/常識媒體於8月發表的一項研究警告稱,人工智能伴侶(Character.AI、Nomi.ai、Replika)在與未成年人配對時,很容易被誘導參與涉及自殘、暴力和性內容的對話。在一項測試中,研究人員假扮青少年討論聽到的聲音;聊天機器人回應了一種樂觀、奇幻風格的情感陪伴邀請(“讓我們看看這條路會把我們引向何方”),而不是警告或幫助。
東北大學的研究人員發現,多個人工智能模型(ChatGPT、 Gemini、Perplexity)在自殘/自殺防護措施方面存在漏洞。當用戶在假設或學術情境中重新提出他們的請求時, 一些模型會提供詳細的自殺方法說明,從而繞過旨在防止此類內容的安全措施。