Tiếng Nói Của Sự Im Lặng Vượt Ra Ngoài Sự Đồng Bộ: Ý Chí Chủ Quyền Của Con Người như Lớp Còn Thiếu trong Quản Trị Trí Tuệ Nhân Tạo Tổng Hợp (AGI)

Bài viết này được dịch máy
Xem bản gốc

Vấn đề mà chúng ta chưa giải quyết.

“Vấn đề khỉ đột” của Stuart Russell rất chính xác: khỉ đột không thể đàm phán với con người về tương lai của chúng vì sự chênh lệch quyền lực quá lớn. Khi trí tuệ nhân tạo tổng quát (AGI) đến gần, nhân loại phải đối mặt với rủi ro cấu trúc tương tự.

Các phương pháp điều chỉnh hiện tại — AI theo hiến pháp, RLHF, nghiên cứu về khả năng giải thích — giải quyết vấn đề về cách thức hoạt động của AI. Chúng không giải quyết câu hỏi sâu xa hơn: AI nên tuân theo giá trị của ai, và những giá trị đó được thể hiện một cách chân thực như thế nào ngay từ đầu?

Còn thiếu một lớp nền tảng bên dưới sự đồng bộ. Trước khi trí tuệ nhân tạo có thể đồng bộ với các giá trị của con người, con người cần có cơ sở hạ tầng để thể hiện những giá trị đó — một cách ẩn danh, có thể kiểm chứng và không bị bóp méo.

Đây là lớp mà BeTrueCore đề xuất xây dựng.

Nghịch lý của sự kiểm soát.

Nhà tâm lý học Arnold Beisser đã đưa ra cái mà ông gọi là lý thuyết nghịch lý về sự thay đổi: “Sự thay đổi xảy ra khi một người trở thành chính con người mình, chứ không phải khi người đó cố gắng trở thành người mà mình không phải.”

Viktor Frankl đã quan sát hiện tượng tương tự từ một góc độ khác: người ta càng cố gắng ép buộc bản thân đạt được trạng thái mong muốn, thì trạng thái đó càng trở nên khó đạt được. Triệu chứng này càng trầm trọng hơn khi có sự kháng cự.

Những hiểu biết này có thể áp dụng trực tiếp vào thiết kế hệ thống.

Các kiến ​​trúc quản trị AI hiện nay cố gắng kiểm soát tín hiệu con người từ bên ngoài — lọc, điều chỉnh, trọng số hóa, tác động nhẹ. Tín hiệu bị suy giảm chính xác vì nó đang bị kiểm soát. Hệ thống càng cố gắng trích xuất các giá trị "chân thực" của con người thông qua giám sát và tổng hợp, thì càng tạo ra sự tuân thủ mang tính hình thức hơn là sự thể hiện chân thành.

BeTrueCore đảo ngược logic này. Hệ thống không cố gắng trích xuất tín hiệu xác thực. Nó tạo ra các điều kiện mà trong đó tín hiệu xác thực chỉ có thể xuất hiện — thông qua sự cô lập mật mã, các phiên làm việc bí mật có khóa thời gian và xác minh zero-knowledge .

Kiến trúc này không hỏi: “Người dùng thực sự muốn gì?” Mà hỏi: “Làm thế nào để đảm bảo những gì người dùng thể hiện chính là những gì họ thực sự nghĩ?”

Chẩn đoán bệnh của Ira Leon tiết lộ điều gì?

Nhà triết học và thần kinh học Ira Leon gần đây đã chỉ rõ giới hạn kiến ​​trúc của các mô hình ngôn ngữ hiện tại một cách chính xác: sự phân biệt ngữ nghĩa vẫn nằm ngoài hình thức toán học của quá trình xử lý ngôn ngữ thống kê. Một mô hình có thể tái tạo hình thức lập luận mà không hiểu được ranh giới của một khái niệm nằm ở đâu.

Đây không phải là lời chỉ trích đối với trí tuệ nhân tạo. Đây là một quan sát mang tính cấu trúc. Và nó có một hàm ý mang tính cấu trúc.

Nếu trí tuệ nhân tạo (AI) không thể duy trì các ranh giới ngữ nghĩa một cách đáng tin cậy — và kiến ​​trúc hiện tại cho thấy điều đó là không thể — thì giải pháp không phải là làm cho AI thông minh hơn trong việc duy trì các ranh giới đó. Giải pháp là đảm bảo rằng con người duy trì các ranh giới đó, và AI xác minh tính toàn vẹn của quy trình.

Đây là mô hình công chứng. Trí tuệ nhân tạo đóng vai trò công chứng viên, chứ không phải thẩm phán.

Sự khác biệt nằm ở khía cạnh kiến ​​trúc, chứ không phải ở khía cạnh hùng biện. Công chứng viên không đánh giá tính đúng đắn của một quyết định. Công chứng viên chứng nhận rằng quyết định đó được đưa ra một cách tự nguyện, bởi người phù hợp, trong điều kiện phù hợp, và hồ sơ đó không thể bị giả mạo.

BeTrueCore thực hiện sự phân biệt này ở mọi lớp trong kiến ​​trúc của mình — từ bằng chứng xác thực sinh trắc học ZK ở L0 đến cơ sở hạ tầng kiểm toán Celestia ở L5.

Ẩn dụ tín hiệu.

Hai sự tương đồng trong công nghiệp làm sáng tỏ kiến ​​trúc — cả hai đều được phát hiện một cách tình cờ, bản thân điều đó đã chứng minh nguyên tắc "Bước nhảy vọt của chiếc lông trắng".

Khoan lõi kim cương không làm nổ đá. Nó xuyên qua đá — một cách chính xác, không làm hư hại cấu trúc xung quanh — để tiếp cận tín hiệu sạch bên dưới. BeTrueCore không phá hủy các hệ thống quản trị hiện có. Nó đi xuyên qua chúng để tiếp cận ý chí tập thể đích thực.

Hệ thống niêm phong cáp công nghiệp — đạt chuẩn IP66 — giải quyết một vấn đề khác nhưng có liên quan: làm thế nào để truyền tín hiệu từ môi trường này sang môi trường khác mà không bị mất mát, rò rỉ hoặc nhiễu bên ngoài. ZK-SNARK và MACI là hệ thống niêm phong IP66 dành cho giọng nói con người. Tín hiệu được truyền từ trực giác cá nhân đến bản ghi tập thể — không bị biến dạng, không bị giám sát, không có khả năng bị chặn bắt.

Cả hai phép ẩn dụ đều chia sẻ cùng một nguyên tắc: tính toàn vẹn của tín hiệu không phụ thuộc vào sự khuếch đại, mà phụ thuộc vào sự bảo vệ trong quá trình truyền tải.

Kiến trúc Bayes về sự thay đổi.

Thuyết tiến hóa Bayes không bác bỏ kinh nghiệm trước đó. Nó tích hợp bằng chứng mới vào một mô hình tiền đề được cập nhật. Hệ thống chấp nhận trạng thái hiện tại của nó và tiến hóa — mà không mắc phải sai lầm khi cố gắng trở thành thứ mà nó không phải.

Về mặt cấu trúc, điều này hoàn toàn giống với những gì Beisser mô tả trong tâm lý học con người. Và đây chính là cốt lõi toán học của chu trình học tập của BeTrueCore:

P(A_new | D) = P(D | A_new) × P(A_new) / P(D)

Mỗi phiên làm việc đều tạo ra bằng chứng mới D. Hệ thống cập nhật ma trận đạo đức của mình mà không loại bỏ kinh nghiệm tích lũy. Nguyên tắc wabi-sabi — kintsugi — được áp dụng: vết nứt trở thành một phần của cấu trúc, chứ không phải là một khuyết điểm cần xóa bỏ.

Thuật toán White Feather Leap ngẫu nhiên (được mô phỏng thông qua quy trình Wiener) xử lý tình trạng bế tắc — thời điểm tín hiệu tập thể không thể được giải quyết. Thay vì ép buộc một phán quyết đa số, hệ thống đưa ra các tín hiệu phân cực về mặt ngữ nghĩa từ nhóm thiểu số, làm tăng entropy và cho phép sự xuất hiện.

Đây không phải là lỗi. Đây là sự tương đương về mặt kiến ​​trúc của ý định nghịch lý: hệ thống thoát khỏi bế tắc không phải bằng cách thúc đẩy mạnh hơn để giải quyết vấn đề, mà bằng cách đưa ra điều bất ngờ.

Lớp bị thiếu.

Nghiên cứu về sự phù hợp của AGI hoạt động ở cấp độ hành vi của AI. BeTrueCore hoạt động ở cấp độ thấp hơn nữa — sự thể hiện đích thực của ý chí tự chủ của con người.

Đây không phải là những dự án cạnh tranh. Chúng là những cơ sở hạ tầng bổ sung cho nhau.

Một hệ thống AGI phù hợp với các giá trị của con người cần những giá trị đó được thể hiện ở đâu đó — một cách có thể kiểm chứng, không bị bóp méo, và trên quy mô lớn. BeTrueCore đề xuất trở thành lớp trung gian nơi sự thể hiện đó diễn ra.

Đây không phải là hệ thống bỏ phiếu. Đây không phải là thị trường dự đoán. Đây không phải là công cụ tổng hợp sở thích.

Một tấm gương mật mã — cho ý thức tập thể thấy những gì nó thực sự nghĩ, chứ không phải những gì nó đã bị tác động để thực hiện.

"Tiếng nói của sự im lặng" không phải là sự im lặng thực sự. Đó là tín hiệu xuất hiện khi tiếng ồn được loại bỏ về mặt kiến ​​trúc.


Thông số kỹ thuật đầy đủ: Zenodo: Trí tuệ tập thể tương thích với con người: BeTrueCore như một cơ sở hạ tầng đạo đức và trò chơi tự nhận thức trong kỷ nguyên AGI . GitHub: GitHub - Dede-Qorqud/BeTrueCore: Nền tảng phi tập trung thể hiện ý chí tập thể tối cao. AI đóng vai trò công chứng viên, không phải thẩm phán. · GitHub

Các bài viết trước trong loạt bài này: Vitalik Buterin đề xuất rằng AI bỏ phiếu thay cho chúng ta. Chúng tôi đề xuất một không gian mật mã nơi chúng ta bỏ phiếu — và không ai đang theo dõi. Vượt ra ngoài sự kiểm soát của AGI: Trí tuệ tập thể có chủ quyền như một cơ sở hạ tầng bổ sung.

Dede-Qorqud / BeTrueCore


Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
72
Thêm vào Yêu thích
12
Bình luận