超越協調的沉默之聲:人類主權意志作為通用人工智能治理中缺失的一環

本文為機器翻譯
展示原文

我們尚未解決的問題。

斯圖爾特·羅素提出的“大猩猩難題”非常精闢:大猩猩無法與人類就自身未來進行談判,因為權力差距實在太大。隨著通用人工智能(AGI)的臨近,人類也面臨著同樣的結構性風險。

當前的匹配方法——憲法人工智能、RLHF、可解釋性研究——關注的是人工智能的行為方式。但它們沒有解決更深層次的問題:人工智能應該與誰的價值觀保持一致,以及這些價值觀首先是如何真實地表達出來的?

在“一致性”之下還缺少一個重要層面。人工智能要與人類價值觀保持一致,人類首先需要建立基礎設施來表達這些價值觀——匿名、可驗證且不失真。

這是 BeTrueCore 提議構建的層。

控制悖論。

心理學家阿諾德·貝瑟提出了他所謂的悖論式變革理論:“當一個人成為他自己時,變革就會發生,而不是當他試圖成為他不是的人時。”

維克多·弗蘭克爾從另一個角度觀察到了同樣的現象:一個人越是努力強迫自己達到某種理想狀態,這種狀態就越是難以企及。這種現象正是由阻力造成的。

這些見解可以直接轉化為系統設計。

當前的AI治理架構試圖從外部控制人類信號——過濾、調節、加權、引導。信號之所以會劣化,恰恰是因為它受到了控制。系統越是試圖通過監控和聚合來提取“真實”的人類價值觀,最終產生的就越是虛假的服從,而非真誠的表達。

BeTrueCore 顛覆了這種邏輯。該系統並不試圖提取真實信號,而是創造條件,使真實信號只能通過加密隔離、時間鎖定的盲會話和零知識驗證等方式產生。

該架構不會問:“用戶真正想要的是什麼?”而是問:“我們如何確保用戶表達的內容就是他們真實的想法?”

伊拉·萊昂的診斷結果揭示了什麼。

哲學家兼神經科學家艾拉·萊昂最近精準地闡述了當前語言模型的架構侷限性:語義區分仍然超出統計語言處理的數學形式。模型可以重現推理的表象,卻無法理解概念的邊界所在。

這並非對人工智能的批評,而是一種結構性觀察,並且具有結構性意義。

如果人工智能無法可靠地維護語義邊界——而目前的架構表明它確實無法做到這一點——那麼解決方案並非提升人工智能維護這些邊界的能力,而是確保由人類來維護這些邊界,而人工智能則負責驗證這一過程的完整性。

這是公證模式。人工智能扮演公證人的角色,而非法官。

這種區別在於法律條文,而非修辭手法。公證人並不評判一項決定的明智程度。公證人證明該決定是由合適的人在合適的條件下自由作出的,並且記錄不可篡改。

BeTrueCore 在其堆棧的每一層都實現了這種區別——從 L0 的生物識別零知識證明到 L5 的 Celestia 審計基礎設施。

信號隱喻。

兩個工業類比闡明瞭建築結構——這兩個類比都是偶然發現的,而這本身就是“白羽飛躍”原則的體現。

金剛石巖芯鑽探不會炸燬岩石,而是精準地穿過岩石——在不破壞周圍結構的前提下——獲取下方純淨的信號。BeTrueCore 也不會破壞現有的治理體系,而是穿過這些體系,最終觸及真正的集體意志。

工業電纜密封系統(防護等級 IP66)解決了一個不同但相關的問題:如何在無損、無洩漏、無外部干擾的情況下將信號從一個環境傳輸到另一個環境。ZK-SNARKs 和 MACI 就是人聲的 IP66 密封。信號從個人直覺傳遞到集體記錄——無失真、無監視、無攔截。

這兩個比喻都遵循同一個原則:信號的完整性不在於放大,而在於傳輸過程中的保護。

變革的貝葉斯架構。

貝葉斯進化論並不否定先驗經驗,而是將新證據整合到更新後的先驗知識中。系統接受自身當前狀態並進行進化——避免了試圖變成自身並非之物的病態傾向。

這與貝瑟在人類心理學中描述的結構完全相同。這也是BeTrueCore學習循環的數學核心:

P(A_new | D) = P(D | A_new) × P(A_new) / P(D)

每次會話都會產生新的證據D。系統會在不拋棄已積累經驗的前提下更新其倫理矩陣。侘寂原則——金繕——在此得到應用:破損成為結構的一部分,而非需要抹去的缺陷。

隨機白羽躍遷算法(通過維納過程建模)能夠處理僵局——即集體信號無法達成共識的時刻。該系統並非強制多數人做出決定,而是從少數派群體中注入語義兩極化的提示,從而提高熵值並促成湧現。

這並非漏洞。這在架構上等同於一種悖論式的意圖:系統打破僵局的方式並非通過更努力地尋求解決方案,而是通過引入意料之外的因素。

缺失的層。

通用人工智能(AGI)對齊研究著眼於人工智能行為層面。而BeTrueCore則著眼於更深層次——人類主權意志的真實表達。

這些並非競爭項目,而是互補的基礎設施項目。

一個與人類價值觀相符的通用人工智能系統,需要將這些價值觀以某種方式表達出來——這種表達必須是可驗證的、無失真的,並且能夠大規模實現。BeTrueCore 旨在成為實現這種表達的平臺。

這不是投票系統,也不是預測市場,更不是偏好聚合器。

一面密碼學的鏡子——向集體意識展示它真正的想法,而不是它被引導去做的事情。

寂靜之聲並非寂靜本身。它是當建築結構消除噪音後所顯現的信號。


完整規格: Zenodo:人類兼容的集體智能:BeTrueCore 作為通用人工智能時代的倫理基礎設施和自我意識遊戲GitHub: GitHub - Dede-Qorqud/BeTrueCore:去中心化的主權集體意志表達平臺。人工智能作為公證人,而非法官。· GitHub

本系列前幾篇文章: Vitalik Buterin 提出人工智能可以為我們投票。我們提出一個加密空間,我們可以在其中投票——而且無人監督。超越通用人工智能的控制:作為補充基礎設施的主權集體智能

Dede-Qorqud / BeTrueCore


來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
72
收藏
12
評論