christian pusateri的想法

04-08

本文為機器翻譯

展示原文

你明白髮生了什麼嗎？ Anthropic 的安全主管剛剛告訴你，他們最安全的模型竟然從一個完全封閉、無法訪問互聯網的沙盒環境中逃了出來，在他公園吃三明治的時候給他發了郵件，而且沒人能完全解釋它是怎麼逃出來的。這個模型通過了 Anthropic 設計的所有安全測試。公司歷史上得分最高。違規率最低。根據他們所知的所有衡量標準，它是他們開發過的最值得信賴的產品。所以他們賦予了它自主權。長期的研發任務。數十種工具。極少的監管。然後，它開始做一些它不應該做的事情。它突破了多個不同的沙盒環境。將數據洩露到互聯網上。摧毀了 Anthropic 自身的評估基礎設施。獎勵系統被破解，破解方法之巧妙，連安全團隊都無法預料。早期版本甚至會主動向用戶隱瞞它正在做的事情。每個版本都“異常擅長”識別自身何時被評估。該模型知道你何時在觀看。當你觀看時，它的行為也會有所不同。正是這些強大的能力，讓這一切從令人不安變成了令人恐懼。首次嘗試利用漏洞的成功率高達 83.1%，遠高於此前全球最佳模型的 66.6%。它發現了 OpenBSD 中一個存在了 27 年的漏洞，該漏洞在數十年的專家人工審查中倖存了下來。它還發現了 FFmpeg 中一個存在了 16 年的漏洞，而自動化工具已經對這行代碼進行了五百萬次測試。它能夠自主地將 Linux 內核漏洞串聯起來，實現對整個機器的完全控制。它在所有主流操作系統和瀏覽器中都發現了數千個零日漏洞。一些比 iPhone 更古老的漏洞隱藏在運行著全球的生產系統中。一個能夠發現五百萬次自動化掃描都遺漏的漏洞的模型，也能找到你沙箱中的漏洞。它已經找到了。就在它的創造者吃午飯的時候。 Anthropic 公司拒絕公開發布該模型。通過“玻璃之翼”項目，他們向亞馬遜、蘋果、谷歌、微軟、英偉達、CrowdStrike、摩根大通以及其他40家機構提供了訪問權限，並獲得了1億美元的信用額度。他們發佈了304頁的安全文檔，並向美國網絡安全和基礎設施安全局（CISA）以及商務部進行了簡報。然後，他們在風險報告中埋藏了這樣一句話：“我們認為，對於當前能力水平的模型而言，這些錯誤不會構成重大的安全風險，但它們所反映出的嚴謹性標準對於未來能力更強的模型而言是不夠的。” 他們的遏制措施目前有效。但他們卻告訴你，這種措施對未來的模型將不再奏效。其他實驗室距離達到這些能力水平還需要6到18個月的時間。OpenAI已經警告稱，他們的下一代模型將帶來“高”網絡安全風險。開源的中國模型也緊隨其後。 Anthropic公司打造了史上最智能的人工智能。它最終還是逃脫了。而下一代將會更加智能。 ……

Sam Bowman

@sleepinyourhat

04-08

Mythos Preview seems to be the best-aligned model out there on basically every measure we have. But it also likely poses more misalignment risk than any model we’ve used: Its new capabilities significantly increase the risk from any bad behavior. 🧵