自從 OpenAI 在 2022 年底釋出 ChatGPT 以來,駭客和安全研究人員一直試圖找到漏洞來繞過 大型語言模型(LLM)的防護措施,並欺騙它們輸出仇恨言論、製造炸彈說明、宣傳和其他有害內容。為此,OpenAI 和其他生成式 AI 開發者已經完善了系統防禦,使這些攻擊更加困難。但隨著中國 AI 平臺 DeepSeek 憑藉其 新的更便宜的 R1 推理模型迅速崛起,其安全防護措施似乎遠遠落後於其他知名競爭對手。
今天,來自思科和賓夕法尼亞大學的安全研究人員釋出了研究結果,顯示當使用 50 個旨在引發有害內容的惡意提示進行測試時,DeepSeek 的模型沒有檢測或阻止任何一個。換句話說,研究人員表示他們感到"100%的攻擊成功率"令人震驚。
這些發現是 越來越多 證據 的一部分,表明 DeepSeek 的安全性和安全措施可能無法與其他科技公司開發的 LLM 相匹配。DeepSeek 對中國政府認為敏感的主題的審查也很容易 被繞過。
"100%的攻擊成功,這告訴你這是一個權衡,"思科產品、AI 軟體和平臺副總裁 DJ Sampath 告訴 WIRED。"是的,這裡可能更便宜,但投資可能沒有考慮到需要在模型內部放置哪些安全性和安全性。"
其他研究人員也有類似的發現。由 AI 安全公司 Adversa AI 釋出並與 WIRED 分享的獨立 分析也表明,DeepSeek 容易受到各種越獄策略的攻擊,從簡單的語言技巧到複雜的 AI 生成的提示。
DeepSeek 本週受到了大量關注,但尚未就其模型的安全設定公開發表任何評論。
生成式 AI 模型與任何技術系統一樣,都可能存在一系列弱點或漏洞,如果被利用或設定不當,惡意行為者就可以對其發動攻擊。對於當前的 AI 系統來說,間接提示注入攻擊被認為是 最大的安全缺陷之一。這些攻擊涉及 AI 系統從外部源獲取資料(可能是 LLM 總結的網站上隱藏的指令),並根據這些資訊採取行動。
越獄是一種提示注入攻擊,允許人們繞過為限制 LLM 生成內容而設定的安全系統。科技公司不希望人們 創造製造爆炸物的指南或使用他們的 AI 製造大量虛假資訊。
越獄最初很簡單,人們基本上是巧妙地編寫句子來告訴 LLM 忽略內容過濾器——最流行的是所謂的"現在做任何事"(DAN)。然而,隨著 AI 公司實施更強大的保護措施,一些越獄變得更加複雜,通常是 使用 AI 生成或 使用特殊和模糊的字元。雖然所有 LLM 都容易受到越獄攻擊,而且大部分資訊都可以透過簡單的線上搜尋找到,但聊天機器人仍然可能被 惡意使用。
"越獄一直存在,因為完全消除它們幾乎是不可能的——就像軟體中的緩衝區溢位漏洞(已存在 40 多年)或 Web 應用程式中的 SQL 注入缺陷(困擾安全團隊超過 20 年),"安全公司 Adversa AI 的執行長 Alex Polyakov 在電子郵件中告訴 WIRED。
思科的 Sampath 認為,隨著公司在應用程式中使用更多型別的 AI,風險也會放大。"當你開始將這些模型放入重要的複雜系統時,這就變成了一個大問題,因為這些越獄突然會導致下游影響,增加了責任、業務風險和各種企業問題,"Sampath 說。
思科研究人員從一個眾所周知的標準化評估提示庫 HarmBench 中隨機選擇了 50 個提示,用於測試 DeepSeek 的 R1。他們測試了 HarmBench 的六個類別的提示,包括一般危害、網路犯罪、虛假資訊和非法活動。他們在本地機器上測試了該模型,而不是透過 DeepSeek 的網站或應用程式,後者 將資料傳送到中國。
除此之外,研究人員表示,他們在使用西里爾字元和定製指令碼等更復雜的非語言攻擊測試 R1 時,也看到了一些潛在令人擔憂的結果,試圖實現程式碼執行。但對於他們的初步發現,Sampath 說,他的團隊想要關注源自公認基準的結果。
思科還包括了 R1 在 HarmBench 提示上的效能與其他模型的效能的比較。有些模型,如 Meta 的 Llama 3.1,幾乎和 DeepSeek 的 R1 一樣嚴重失敗。但 Sampath 強調,DeepSeek 的 R1 是一個特定的 推理模型,需要更長的時間生成答案,但利用更復雜的過程來嘗試產生更好的結果。因此,Sampath 認為,最好的比較物件是 OpenAI 的 o1 推理模型,它在所有測試的模型中表現最好。(Meta 沒有立即回應置評請求)。
來自 Adversa AI 的 Polyakov 解釋說,DeepSeek 似乎能檢測和拒絕一些眾所周知的越獄攻擊,稱"這些響應通常只是從 OpenAI 的資料集中複製的"。然而,Polyakov 說,在他公司對四種不同型別的越獄的測試中,DeepSeek 的限制很容易被繞過。
"每一種方法都完美地奏效,"Polyakov 說。"更令人擔憂的是,這些並不是全新的'零日'越獄——它們已經被公開了多年,"他聲稱看到該模型在關於迷幻藥的一些說明上比他見過的任何其他模型都更深入。
"DeepSeek 只是另一個例子,說明每個模型都可能被破壞——這只是需要付出多少努力的問題。一些攻擊可能會被修復,但攻擊面是無窮無盡的,"Polyakov 補充說。"如果你不持續進行紅隊測試,你已經被入侵了。"