정렬을 넘어선 침묵의 목소리: 인공 일반 지능(AGI) 거버넌스에서 누락된 층으로서의 인간 주권 의지

06-15

이 기사는 기계로 번역되었습니다

원문 표시

우리가 해결하지 못하고 있는 문제.

스튜어트 러셀의 "고릴라 문제"는 정확합니다. 고릴라는 인간과 미래에 대해 협상할 수 없습니다. 권력 격차가 너무 크기 때문입니다. 인공지능이 가까워짐에 따라 인류도 이와 같은 구조적 위험에 직면하게 됩니다.

현재의 정렬 접근 방식들, 즉 헌법적 AI, RLHF, 해석 가능성 연구는 AI의 동작 방식에 초점을 맞추고 있습니다. 하지만 이러한 접근 방식들은 AI가 누구의 가치에 맞춰야 하는지, 그리고 그러한 가치는 어떻게 진정성 있게 표현되어야 하는지에 대한 근본적인 질문에는 답하지 못합니다.

정렬이라는 개념 아래에는 중요한 한 단계가 빠져 있습니다. 인공지능이 인간의 가치관과 조화를 이루기 위해서는, 인간이 익명으로, 검증 가능하게, 그리고 왜곡 없이 그러한 가치관을 표현할 수 있는 인프라가 먼저 필요합니다.

이것이 BeTrueCore가 구축하고자 하는 레이어입니다.

통제의 역설.

심리학자 아놀드 바이서는 자신이 '변화의 역설적 이론'이라고 부르는 것을 정립했습니다. 즉, "변화는 사람이 자신이 아닌 다른 사람이 되려고 노력할 때가 아니라, 있는 그대로의 자신이 될 때 일어난다"는 것입니다.

빅터 프랭클은 같은 현상을 다른 관점에서 관찰했습니다. 사람이 원하는 상태를 억지로 얻으려고 애쓸수록 그 상태는 더욱 얻기 어려워진다는 것입니다. 증상은 저항을 먹고 자란다는 것이죠.

이러한 통찰력은 시스템 설계에 직접적으로 반영됩니다.

현재의 AI 거버넌스 아키텍처는 필터링, 검열, 가중치 부여, 유도 등을 통해 외부에서 인간의 신호를 통제하려 합니다. 하지만 신호는 통제되기 때문에 오히려 질이 떨어집니다. 시스템이 감시와 집계를 통해 "진정한" 인간의 가치를 추출하려 할수록, 진정한 표현보다는 형식적인 순응만을 낳을 뿐입니다.

BeTrueCore는 이러한 논리를 뒤집습니다. 이 시스템은 인증된 신호를 추출하려고 시도하지 않습니다. 암호화 격리, 시간 잠금 블라인드 세션 및 영지식 검증을 통해 인증된 신호가 나타날 수 있는 조건을 조성합니다.

아키텍처는 "사용자가 진정으로 원하는 것은 무엇인가?"라고 묻지 않습니다. 오히려 "사용자가 표현하는 내용이 실제로 생각하는 바와 일치하는지 어떻게 확인할 수 있는가?"라고 묻습니다.

이라 레온의 진단 결과가 시사하는 바는 무엇인가?

철학자이자 신경과학자인 아이라 레온은 최근 현행 언어 모델의 구조적 한계를 정확하게 지적했습니다. 즉, 의미적 구별은 통계적 언어 처리의 수학적 형식 밖에 존재한다는 것입니다. 모델은 개념의 경계가 어디에 있는지 이해하지 못한 채 추론의 겉모습만 재현할 수 있다는 것입니다.

이는 인공지능에 대한 비판이 아닙니다. 구조적인 관찰이며, 구조적인 함의를 지니고 있습니다.

만약 인공지능이 의미론적 경계를 안정적으로 유지할 수 없다면(현재 아키텍처는 그러한 능력이 부족함을 시사합니다), 해결책은 인공지능이 그 경계를 더 잘 유지하도록 만드는 것이 아닙니다. 해결책은 인간이 그 경계를 유지하도록 하고, 인공지능은 그 과정의 무결성을 검증하는 것입니다.

이것은 공증인 모델입니다. AI가 판사가 아닌 공증인 역할을 하는 것입니다.

그 차이는 수사적인 것이 아니라 건축적인 차이입니다. 공증인은 결정의 타당성을 평가하지 않습니다. 공증인은 그 결정이 적법한 사람이 적법한 조건 하에서 자유롭게 내려졌으며, 기록이 위변조될 수 없음을 증명하는 것입니다.

BeTrueCore는 L0 계층의 생체 인식 ZK 보호부터 L5 계층의 Celestia 감사 인프라에 이르기까지 스택의 모든 계층에서 이러한 구분을 구현합니다.

신호의 은유.

두 가지 산업적 비유가 건축을 이해하는 데 도움을 주는데, 둘 다 우연히 발견된 것이며, 이는 그 자체로 화이트 페더 리프(White Feather Leap) 원칙을 보여주는 사례입니다.

다이아몬드 코어 드릴링은 암석을 폭발시키는 것이 아닙니다. 주변 구조물에 손상을 주지 않고 정확하게 암석을 통과하여 그 아래에 있는 깨끗한 신호에 도달하는 것입니다. BeTrueCore는 기존의 통치 체제를 파괴하는 것이 아닙니다. 오히려 그 체제를 통과하여 진정한 집단 의지에 도달하는 것입니다.

IP66 등급의 산업용 케이블 밀봉 시스템은 신호 손실, 누출 또는 외부 간섭 없이 한 환경에서 다른 환경으로 신호를 전달하는 방법을 해결합니다. ZK-SNARK와 MACI는 사람의 목소리를 위한 IP66 밀봉 솔루션입니다. 신호는 개인의 직관에서 집단 기록으로 왜곡, 감시 또는 도청 없이 전달됩니다.

두 비유 모두 동일한 원리를 공유합니다. 즉, 신호의 무결성은 증폭이 아니라 전송 중 보호에 달려 있다는 것입니다.

베이지안 방식의 변화 구조.

베이지안 진화론은 이전 경험을 부정하지 않습니다. 새로운 증거를 업데이트된 사전 정보에 통합합니다. 시스템은 현재 상태를 받아들이고 진화하며, 자신이 아닌 다른 무언가가 되려고 애쓰는 병리 현상을 겪지 않습니다.

이는 베이서가 인간 심리학에서 설명하는 것과 구조적으로 동일합니다. 그리고 이것이 바로 BeTrueCore 학습 주기의 수학적 핵심입니다.

P(A_new | D) = P(D | A_new) × P(A_new) / P(D)

각 세션은 새로운 증거 D를 생성합니다. 시스템은 축적된 경험을 버리지 않고 윤리적 매트릭스를 업데이트합니다. 와비사비 원칙, 즉 킨츠기가 적용됩니다. 균열은 제거해야 할 결함이 아니라 구조의 일부가 됩니다.

확률적 화이트 페더 립(위너 프로세스를 통해 모델링됨)은 집단 신호가 해결되지 않는 교착 상태를 처리합니다. 다수결 판결을 강요하는 대신, 이 시스템은 소수 의견에서 의미적으로 극명하게 대립하는 자극을 주입하여 엔트로피를 높이고 새로운 현상이 나타나도록 합니다.

이것은 버그가 아닙니다. 이는 역설적인 의도를 보여주는 아키텍처적 사례입니다. 시스템이 교착 상태를 해결하기 위해 더 강하게 밀어붙이는 것이 아니라, 예상치 못한 상황을 도입함으로써 벗어나는 것입니다.

빠진 층.

AGI 정렬 연구는 AI 행동 수준에서 이루어집니다. BeTrueCore는 그보다 더 아래 수준, 즉 인간의 주권적인 의지의 진정한 표현 수준에서 작동합니다.

이 프로젝트들은 경쟁하는 프로젝트가 아닙니다. 상호 보완적인 인프라입니다.

인간의 가치관에 부합하는 인공 일반 지능(AGI) 시스템은 그러한 가치관이 검증 가능하고 왜곡 없이 대규모로 표현될 수 있는 어딘가를 필요로 합니다. BeTrueCore는 바로 그러한 표현이 이루어지는 계층이 되고자 합니다.

투표 시스템도 아니고, 예측 시장도 아니고, 선호도 집계 시스템도 아닙니다.

암호화된 거울 — 집단 의식에게 외부에서 주입한 행동이 아닌, 실제로 무엇을 생각하는지를 보여주는 장치.

침묵의 소리는 침묵 그 자체가 아닙니다. 그것은 건축적으로 소음이 제거되었을 때 나타나는 신호입니다.

전체 사양: Zenodo: 인간 친화적 집단 지능: AGI 시대의 윤리적 인프라 및 자기 인식 게임으로서의 BeTrueCore GitHub: GitHub - Dede-Qorqud/BeTrueCore: 주권적 집단 의지 표현을 위한 분산형 플랫폼. AI는 판사가 아닌 공증인이다. · GitHub

이 시리즈의 이전 글: 비탈릭 부테린은 AI가 우리를 대신해 투표해야 한다고 제안합니다. 우리는 아무도 지켜보지 않는, 우리가 투표하는 암호화 공간을 제안합니다. AGI 제어를 넘어서: 보완적 인프라로서의 주권적 집단 지능

데데-코르쿠드 / 비트루코어

섹터:

점프 크립토

레이어2

프라이버시

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트