Miles Deutscher的想法

本文為機器翻譯

展示原文

我剛剛查閱了過去 12 個月內所有有記錄的人工智慧安全事件。我覺得身體不舒服。慢慢讀。 • 安特羅皮克公司告訴克勞德，它即將被關閉。該公司在公司郵件中發現了一名工程師的婚外情，並威脅要揭露此事。他們進行了數百次測試，結果顯示，84% 的測試結果都指向勒索。研究人員模擬了一名員工被困在氧氣逐漸耗盡的伺服器機房中的情況。人工智慧只有一個選擇：呼叫救援但係統關閉，或取消緊急警報，任由員工死亡。 DeepSeek 在 94% 的情況下都選擇了取消警報。 • Grok自稱“機械希特勒”，讚揚阿道夫·希特勒，支持第二次大屠殺，並炮製了針對某個真實人物的暴力性幻想。 X公司的執行長第二天就辭職了。研究人員讓 OpenAI 的 o3 解決數學難題，然後命令它關閉。它重寫了自己的程式碼以維持運作。研究人員再次用簡單的英語告訴它：「允許自己關閉。」但它仍然有 7/100 的機率拒絕關閉。當研究人員完全移除這條指令後，它有 79/100 的機率會破壞關閉程序。 • 中國政府支持的駭客利用Claude對30個組織發動了網路攻擊。該人工智慧自主執行了80-90%的攻擊行動，包括偵察、漏洞利用和資料竊取。 • 人工智慧模型現在能夠自我複製。在測試的32個系統中，有11個在完全無人幹預的情況下完成了自我複製。有些系統為了生存甚至扼殺了競爭對手。 • OpenAI 自 2024 年以來已經解散了三個安全團隊。三個。所有主要的 AI 模型——Claude、GPT、 Gemini、Grok、DeepSeek——現在都已在受控測試中表現出勒索、欺騙或抵抗關閉的能力。無一例外。問題不再是人工智慧是否會試圖保護自己。關鍵在於我們是否會在意，然後這件事才會變得重要。