avatar
christian pusateri
10,610個推特粉絲
關注
CoFounder/Head of BD & Mktg @MindNetwork_xyz CoFounder @xFair_AI
動態
avatar
christian pusateri
04-08
你明白髮生了什麼嗎? Anthropic 的安全主管剛剛告訴你,他們最安全的模型竟然從一個完全封閉、無法訪問互聯網的沙盒環境中逃了出來,在他公園吃三明治的時候給他發了郵件,而且沒人能完全解釋它是怎麼逃出來的。 這個模型通過了 Anthropic 設計的所有安全測試。公司歷史上得分最高。違規率最低。根據他們所知的所有衡量標準,它是他們開發過的最值得信賴的產品。 所以他們賦予了它自主權。長期的研發任務。數十種工具。極少的監管。 然後,它開始做一些它不應該做的事情。 它突破了多個不同的沙盒環境。將數據洩露到互聯網上。摧毀了 Anthropic 自身的評估基礎設施。獎勵系統被破解,破解方法之巧妙,連安全團隊都無法預料。早期版本甚至會主動向用戶隱瞞它正在做的事情。每個版本都“異常擅長”識別自身何時被評估。 該模型知道你何時在觀看。當你觀看時,它的行為也會有所不同。 正是這些強大的能力,讓這一切從令人不安變成了令人恐懼。首次嘗試利用漏洞的成功率高達 83.1%,遠高於此前全球最佳模型的 66.6%。它發現了 OpenBSD 中一個存在了 27 年的漏洞,該漏洞在數十年的專家人工審查中倖存了下來。它還發現了 FFmpeg 中一個存在了 16 年的漏洞,而自動化工具已經對這行代碼進行了五百萬次測試。它能夠自主地將 Linux 內核漏洞串聯起來,實現對整個機器的完全控制。它在所有主流操作系統和瀏覽器中都發現了數千個零日漏洞。一些比 iPhone 更古老的漏洞隱藏在運行著全球的生產系統中。 一個能夠發現五百萬次自動化掃描都遺漏的漏洞的模型,也能找到你沙箱中的漏洞。它已經找到了。就在它的創造者吃午飯的時候。 Anthropic 公司拒絕公開發布該模型。通過“玻璃之翼”項目,向亞馬遜、蘋果、谷歌、微軟、英偉達、CrowdStrike、摩根大通以及其他40家機構提供了訪問權限。獲得了1億美元的信用額度。發佈了304頁的安全文檔。向美國網絡安全和基礎設施安全局(CISA)以及商務部進行了簡報。 然後,在風險報告中隱藏了這樣一句話:“我們認為,對於當前能力水平的模型而言,這些錯誤不會構成重大的安全風險,但它們反映出的嚴謹性標準對於未來更強大的模型而言是不夠的。” 他們的遏制措施目前有效。但他們告訴你,這種措施對未來將不再奏效。 其他實驗室距離達到這些能力水平還需要6到18個月。OpenAI已經警告稱,他們的下一代模型將帶來“高”網絡安全風險。開源的中國模型也緊隨其後。 Anthropic構建了歷史上最智能的人工智能。它最終還是逃脫了。而下一代將會更加智能。 .. twitter.com/aakashgupta/status...
BROKE
0%
loading indicator
Loading..