超越协调的沉默之声:人类主权意志作为通用人工智能治理中缺失的一环

本文为机器翻译
展示原文

我们尚未解决的问题。

斯图尔特·罗素提出的“大猩猩难题”非常精辟:大猩猩无法与人类就自身未来进行谈判,因为权力差距实在太大。随着通用人工智能(AGI)的临近,人类也面临着同样的结构性风险。

当前的匹配方法——宪法人工智能、RLHF、可解释性研究——关注的是人工智能的行为方式。但它们没有解决更深层次的问题:人工智能应该与谁的价值观保持一致,以及这些价值观首先是如何真实地表达出来的?

在“一致性”之下还缺少一个重要层面。人工智能要与人类价值观保持一致,人类首先需要建立基础设施来表达这些价值观——匿名、可验证且不失真。

这是 BeTrueCore 提议构建的层。

控制悖论。

心理学家阿诺德·贝瑟提出了他所谓的悖论式变革理论:“当一个人成为他自己时,变革就会发生,而不是当他试图成为他不是的人时。”

维克多·弗兰克尔从另一个角度观察到了同样的现象:一个人越是努力强迫自己达到某种理想状态,这种状态就越是难以企及。这种现象正是由阻力造成的。

这些见解可以直接转化为系统设计。

当前的AI治理架构试图从外部控制人类信号——过滤、调节、加权、引导。信号之所以会劣化,恰恰是因为它受到了控制。系统越是试图通过监控和聚合来提取“真实”的人类价值观,最终产生的就越是虚假的服从,而非真诚的表达。

BeTrueCore 颠覆了这种逻辑。该系统并不试图提取真实信号,而是创造条件,使真实信号只能通过加密隔离、时间锁定的盲会话和零知识验证等方式产生。

该架构不会问:“用户真正想要的是什么?”而是问:“我们如何确保用户表达的内容就是他们真实的想法?”

伊拉·莱昂的诊断结果揭示了什么。

哲学家兼神经科学家艾拉·莱昂最近精准地阐述了当前语言模型的架构局限性:语义区分仍然超出统计语言处理的数学形式。模型可以重现推理的表象,却无法理解概念的边界所在。

这并非对人工智能的批评,而是一种结构性观察,并且具有结构性意义。

如果人工智能无法可靠地维护语义边界——而目前的架构表明它确实无法做到这一点——那么解决方案并非提升人工智能维护这些边界的能力,而是确保由人类来维护这些边界,而人工智能则负责验证这一过程的完整性。

这是公证模式。人工智能扮演公证人的角色,而非法官。

这种区别在于法律条文,而非修辞手法。公证人并不评判一项决定的明智程度。公证人证明该决定是由合适的人在合适的条件下自由作出的,并且记录不可篡改。

BeTrueCore 在其堆栈的每一层都实现了这种区别——从 L0 的生物识别零知识证明到 L5 的 Celestia 审计基础设施。

信号隐喻。

两个工业类比阐明了建筑结构——这两个类比都是偶然发现的,而这本身就是“白羽飞跃”原则的体现。

金刚石岩芯钻探不会炸毁岩石,而是精准地穿过岩石——在不破坏周围结构的前提下——获取下方纯净的信号。BeTrueCore 也不会破坏现有的治理体系,而是穿过这些体系,最终触及真正的集体意志。

工业电缆密封系统(防护等级 IP66)解决了一个不同但相关的问题:如何在无损、无泄漏、无外部干扰的情况下将信号从一个环境传输到另一个环境。ZK-SNARKs 和 MACI 就是人声的 IP66 密封。信号从个人直觉传递到集体记录——无失真、无监视、无拦截。

这两个比喻都遵循同一个原则:信号的完整性不在于放大,而在于传输过程中的保护。

变革的贝叶斯架构。

贝叶斯进化论并不否定先验经验,而是将新证据整合到更新后的先验知识中。系统接受自身当前状态并进行进化——避免了试图变成自身并非之物的病态倾向。

这与贝瑟在人类心理学中描述的结构完全相同。这也是BeTrueCore学习循环的数学核心:

P(A_new | D) = P(D | A_new) × P(A_new) / P(D)

每次会话都会产生新的证据D。系统会在不抛弃已积累经验的前提下更新其伦理矩阵。侘寂原则——金缮——在此得到应用:破损成为结构的一部分,而非需要抹去的缺陷。

随机白羽跃迁算法(通过维纳过程建模)能够处理僵局——即集体信号无法达成共识的时刻。该系统并非强制多数人做出决定,而是从少数派群体中注入语义两极化的提示,从而提高熵值并促成涌现。

这并非漏洞。这在架构上等同于一种悖论式的意图:系统打破僵局的方式并非通过更努力地寻求解决方案,而是通过引入意料之外的因素。

缺失的层。

通用人工智能(AGI)对齐研究着眼于人工智能行为层面。而BeTrueCore则着眼于更深层次——人类主权意志的真实表达。

这些并非竞争项目,而是互补的基础设施项目。

一个与人类价值观相符的通用人工智能系统,需要将这些价值观以某种方式表达出来——这种表达必须是可验证的、无失真的,并且能够大规模实现。BeTrueCore 旨在成为实现这种表达的平台。

这不是投票系统,也不是预测市场,更不是偏好聚合器。

一面密码学的镜子——向集体意识展示它真正的想法,而不是它被引导去做的事情。

寂静之声并非寂静本身。它是当建筑结构消除噪音后所显现的信号。


完整规格: Zenodo:人类兼容的集体智能:BeTrueCore 作为通用人工智能时代的伦理基础设施和自我意识游戏GitHub: GitHub - Dede-Qorqud/BeTrueCore:去中心化的主权集体意志表达平台。人工智能作为公证人,而非法官。· GitHub

本系列前几篇文章: Vitalik Buterin 提出人工智能可以为我们投票。我们提出一个加密空间,我们可以在其中投票——而且无人监督。超越通用人工智能的控制:作为补充基础设施的主权集体智能

Dede-Qorqud / BeTrueCore


来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
72
收藏
12
评论