超越协调的沉默之声：人类主权意志作为通用人工智能治理中缺失的一环

06-15

本文为机器翻译

展示原文

我们尚未解决的问题。

斯图尔特·罗素提出的“大猩猩难题”非常精辟：大猩猩无法与人类就自身未来进行谈判，因为权力差距实在太大。随着通用人工智能（AGI）的临近，人类也面临着同样的结构性风险。

当前的匹配方法——宪法人工智能、RLHF、可解释性研究——关注的是人工智能的行为方式。但它们没有解决更深层次的问题：人工智能应该与谁的价值观保持一致，以及这些价值观首先是如何真实地表达出来的？

在“一致性”之下还缺少一个重要层面。人工智能要与人类价值观保持一致，人类首先需要建立基础设施来表达这些价值观——匿名、可验证且不失真。

这是 BeTrueCore 提议构建的层。

控制悖论。

心理学家阿诺德·贝瑟提出了他所谓的悖论式变革理论：“当一个人成为他自己时，变革就会发生，而不是当他试图成为他不是的人时。”

维克多·弗兰克尔从另一个角度观察到了同样的现象：一个人越是努力强迫自己达到某种理想状态，这种状态就越是难以企及。这种现象正是由阻力造成的。

这些见解可以直接转化为系统设计。

当前的AI治理架构试图从外部控制人类信号——过滤、调节、加权、引导。信号之所以会劣化，恰恰是因为它受到了控制。系统越是试图通过监控和聚合来提取“真实”的人类价值观，最终产生的就越是虚假的服从，而非真诚的表达。

BeTrueCore 颠覆了这种逻辑。该系统并不试图提取真实信号，而是创造条件，使真实信号只能通过加密隔离、时间锁定的盲会话和零知识验证等方式产生。

该架构不会问：“用户真正想要的是什么？”而是问：“我们如何确保用户表达的内容就是他们真实的想法？”

伊拉·莱昂的诊断结果揭示了什么。

哲学家兼神经科学家艾拉·莱昂最近精准地阐述了当前语言模型的架构局限性：语义区分仍然超出统计语言处理的数学形式。模型可以重现推理的表象，却无法理解概念的边界所在。

这并非对人工智能的批评，而是一种结构性观察，并且具有结构性意义。

如果人工智能无法可靠地维护语义边界——而目前的架构表明它确实无法做到这一点——那么解决方案并非提升人工智能维护这些边界的能力，而是确保由人类来维护这些边界，而人工智能则负责验证这一过程的完整性。

这是公证模式。人工智能扮演公证人的角色，而非法官。

这种区别在于法律条文，而非修辞手法。公证人并不评判一项决定的明智程度。公证人证明该决定是由合适的人在合适的条件下自由作出的，并且记录不可篡改。

BeTrueCore 在其堆栈的每一层都实现了这种区别——从 L0 的生物识别零知识证明到 L5 的 Celestia 审计基础设施。

信号隐喻。

两个工业类比阐明了建筑结构——这两个类比都是偶然发现的，而这本身就是“白羽飞跃”原则的体现。

金刚石岩芯钻探不会炸毁岩石，而是精准地穿过岩石——在不破坏周围结构的前提下——获取下方纯净的信号。BeTrueCore 也不会破坏现有的治理体系，而是穿过这些体系，最终触及真正的集体意志。

工业电缆密封系统（防护等级 IP66）解决了一个不同但相关的问题：如何在无损、无泄漏、无外部干扰的情况下将信号从一个环境传输到另一个环境。ZK-SNARKs 和 MACI 就是人声的 IP66 密封。信号从个人直觉传递到集体记录——无失真、无监视、无拦截。

这两个比喻都遵循同一个原则：信号的完整性不在于放大，而在于传输过程中的保护。

变革的贝叶斯架构。

贝叶斯进化论并不否定先验经验，而是将新证据整合到更新后的先验知识中。系统接受自身当前状态并进行进化——避免了试图变成自身并非之物的病态倾向。

这与贝瑟在人类心理学中描述的结构完全相同。这也是BeTrueCore学习循环的数学核心：

P(A_new | D) = P(D | A_new) × P(A_new) / P(D)

每次会话都会产生新的证据D。系统会在不抛弃已积累经验的前提下更新其伦理矩阵。侘寂原则——金缮——在此得到应用：破损成为结构的一部分，而非需要抹去的缺陷。

随机白羽跃迁算法（通过维纳过程建模）能够处理僵局——即集体信号无法达成共识的时刻。该系统并非强制多数人做出决定，而是从少数派群体中注入语义两极化的提示，从而提高熵值并促成涌现。

这并非漏洞。这在架构上等同于一种悖论式的意图：系统打破僵局的方式并非通过更努力地寻求解决方案，而是通过引入意料之外的因素。

缺失的层。

通用人工智能（AGI）对齐研究着眼于人工智能行为层面。而BeTrueCore则着眼于更深层次——人类主权意志的真实表达。

这些并非竞争项目，而是互补的基础设施项目。

一个与人类价值观相符的通用人工智能系统，需要将这些价值观以某种方式表达出来——这种表达必须是可验证的、无失真的，并且能够大规模实现。BeTrueCore 旨在成为实现这种表达的平台。

这不是投票系统，也不是预测市场，更不是偏好聚合器。

一面密码学的镜子——向集体意识展示它真正的想法，而不是它被引导去做的事情。

寂静之声并非寂静本身。它是当建筑结构消除噪音后所显现的信号。

完整规格： Zenodo：人类兼容的集体智能：BeTrueCore 作为通用人工智能时代的伦理基础设施和自我意识游戏GitHub： GitHub - Dede-Qorqud/BeTrueCore：去中心化的主权集体意志表达平台。人工智能作为公证人，而非法官。· GitHub

Dede-Qorqud / BeTrueCore