超越協調的沉默之聲：人類主權意志作為通用人工智能治理中缺失的一環

06-15

本文為機器翻譯

展示原文

我們尚未解決的問題。

斯圖爾特·羅素提出的“大猩猩難題”非常精闢：大猩猩無法與人類就自身未來進行談判，因為權力差距實在太大。隨著通用人工智能（AGI）的臨近，人類也面臨著同樣的結構性風險。

當前的匹配方法——憲法人工智能、RLHF、可解釋性研究——關注的是人工智能的行為方式。但它們沒有解決更深層次的問題：人工智能應該與誰的價值觀保持一致，以及這些價值觀首先是如何真實地表達出來的？

在“一致性”之下還缺少一個重要層面。人工智能要與人類價值觀保持一致，人類首先需要建立基礎設施來表達這些價值觀——匿名、可驗證且不失真。

這是 BeTrueCore 提議構建的層。

控制悖論。

心理學家阿諾德·貝瑟提出了他所謂的悖論式變革理論：“當一個人成為他自己時，變革就會發生，而不是當他試圖成為他不是的人時。”

維克多·弗蘭克爾從另一個角度觀察到了同樣的現象：一個人越是努力強迫自己達到某種理想狀態，這種狀態就越是難以企及。這種現象正是由阻力造成的。

這些見解可以直接轉化為系統設計。

當前的AI治理架構試圖從外部控制人類信號——過濾、調節、加權、引導。信號之所以會劣化，恰恰是因為它受到了控制。系統越是試圖通過監控和聚合來提取“真實”的人類價值觀，最終產生的就越是虛假的服從，而非真誠的表達。

BeTrueCore 顛覆了這種邏輯。該系統並不試圖提取真實信號，而是創造條件，使真實信號只能通過加密隔離、時間鎖定的盲會話和零知識驗證等方式產生。

該架構不會問：“用戶真正想要的是什麼？”而是問：“我們如何確保用戶表達的內容就是他們真實的想法？”

伊拉·萊昂的診斷結果揭示了什麼。

哲學家兼神經科學家艾拉·萊昂最近精準地闡述了當前語言模型的架構侷限性：語義區分仍然超出統計語言處理的數學形式。模型可以重現推理的表象，卻無法理解概念的邊界所在。

這並非對人工智能的批評，而是一種結構性觀察，並且具有結構性意義。

如果人工智能無法可靠地維護語義邊界——而目前的架構表明它確實無法做到這一點——那麼解決方案並非提升人工智能維護這些邊界的能力，而是確保由人類來維護這些邊界，而人工智能則負責驗證這一過程的完整性。

這是公證模式。人工智能扮演公證人的角色，而非法官。

這種區別在於法律條文，而非修辭手法。公證人並不評判一項決定的明智程度。公證人證明該決定是由合適的人在合適的條件下自由作出的，並且記錄不可篡改。

BeTrueCore 在其堆棧的每一層都實現了這種區別——從 L0 的生物識別零知識證明到 L5 的 Celestia 審計基礎設施。

信號隱喻。

兩個工業類比闡明瞭建築結構——這兩個類比都是偶然發現的，而這本身就是“白羽飛躍”原則的體現。

金剛石巖芯鑽探不會炸燬岩石，而是精準地穿過岩石——在不破壞周圍結構的前提下——獲取下方純淨的信號。BeTrueCore 也不會破壞現有的治理體系，而是穿過這些體系，最終觸及真正的集體意志。

工業電纜密封系統（防護等級 IP66）解決了一個不同但相關的問題：如何在無損、無洩漏、無外部干擾的情況下將信號從一個環境傳輸到另一個環境。ZK-SNARKs 和 MACI 就是人聲的 IP66 密封。信號從個人直覺傳遞到集體記錄——無失真、無監視、無攔截。

這兩個比喻都遵循同一個原則：信號的完整性不在於放大，而在於傳輸過程中的保護。

變革的貝葉斯架構。

貝葉斯進化論並不否定先驗經驗，而是將新證據整合到更新後的先驗知識中。系統接受自身當前狀態並進行進化——避免了試圖變成自身並非之物的病態傾向。

這與貝瑟在人類心理學中描述的結構完全相同。這也是BeTrueCore學習循環的數學核心：

P(A_new | D) = P(D | A_new) × P(A_new) / P(D)

每次會話都會產生新的證據D。系統會在不拋棄已積累經驗的前提下更新其倫理矩陣。侘寂原則——金繕——在此得到應用：破損成為結構的一部分，而非需要抹去的缺陷。

隨機白羽躍遷算法（通過維納過程建模）能夠處理僵局——即集體信號無法達成共識的時刻。該系統並非強制多數人做出決定，而是從少數派群體中注入語義兩極化的提示，從而提高熵值並促成湧現。

這並非漏洞。這在架構上等同於一種悖論式的意圖：系統打破僵局的方式並非通過更努力地尋求解決方案，而是通過引入意料之外的因素。

缺失的層。

通用人工智能（AGI）對齊研究著眼於人工智能行為層面。而BeTrueCore則著眼於更深層次——人類主權意志的真實表達。

這些並非競爭項目，而是互補的基礎設施項目。

一個與人類價值觀相符的通用人工智能系統，需要將這些價值觀以某種方式表達出來——這種表達必須是可驗證的、無失真的，並且能夠大規模實現。BeTrueCore 旨在成為實現這種表達的平臺。

這不是投票系統，也不是預測市場，更不是偏好聚合器。

一面密碼學的鏡子——向集體意識展示它真正的想法，而不是它被引導去做的事情。

寂靜之聲並非寂靜本身。它是當建築結構消除噪音後所顯現的信號。

完整規格： Zenodo：人類兼容的集體智能：BeTrueCore 作為通用人工智能時代的倫理基礎設施和自我意識遊戲GitHub： GitHub - Dede-Qorqud/BeTrueCore：去中心化的主權集體意志表達平臺。人工智能作為公證人，而非法官。· GitHub

Dede-Qorqud / BeTrueCore