Xem các tác nhân tự trị như những người tham gia không đáng tin cậy: những gợi ý của bộ công cụ Claude Code về thiết kế cơ chế on-chain

06-16

Bài viết này được dịch máy

Xem bản gốc

Điều này tiếp nối mạch lập luận mà tôi đã đăng tải ở đây từ đầu tháng 5 về khoảng cách giữa những gì một giao thức có thể thực thi on-chain và những gì thực sự xảy ra Ngoài chuỗi, và cách thiết kế cơ chế tốt thu hẹp khoảng cách đó bằng cách làm cho hành vi không trung thực trở nên không có lợi nhuận, thay vì tin tưởng bất kỳ ai sẽ trung thực. Một sự kiện gần đây nằm ngoài chủ đề thường lệ của chúng ta đã cho tôi một ví dụ rõ ràng, quy mô lớn về nguyên tắc tương tự, và tôi nghĩ rằng điều này đáng được đưa trở lại chủ đề chính bởi vì các tác nhân tự trị sắp trở thành những người tham gia hạng nhất trong các hệ thống mà chúng ta thiết kế ở đây.

Cuối tháng 3, toàn bộ mã nguồn của một công cụ lập trình AI đã vô tình bị lộ, và một số nhóm đã công bố các phân tích về nó. Chi tiết quan trọng đối với chúng ta là về cấu trúc. Phần hệ thống gọi mô hình và quyết định hành động là rất nhỏ. Theo ước tính của một cộng đồng, nó chiếm chưa đến hai phần trăm mã nguồn, và tôi không muốn dựa vào con số chính xác vì nó hoàn toàn phụ thuộc vào cách bạn phân loại mã, nhưng sự phân chia về chất lượng thì không có gì phải bàn cãi. Phần lớn kỹ thuật không phải là trí thông minh. Nó là bộ máy xung quanh trí thông minh: một lớp quyền từ chối mặc định giữa tác nhân và bất kỳ hành động thay đổi trạng thái nào, một quy trình quản lý ngữ cảnh để tác nhân không mất dấu mục tiêu của nó, sự cô lập để các tác nhân song song không thể làm hỏng lẫn nhau, và các điểm kiểm tra rõ ràng nơi một hành động có đặc quyền được giữ lại để phê duyệt.

Hãy đọc nó như một vấn đề thiết kế cơ chế và bạn sẽ thấy nó quen thuộc. Tác nhân là một người tham gia sẽ thực hiện hành động hấp dẫn cục bộ, bao gồm cả hành động có hại, trừ khi cấu trúc xung quanh loại bỏ phần thưởng cho việc đó. Lớp quyền hạn là một quy tắc thanh toán bù trừ. Sự cô lập là thuộc tính tương tự mà chúng ta muốn khi ngăn chặn hành động đang chờ xử lý của một tác nhân lan sang tác nhân khác. Điểm kiểm tra chờ phê duyệt là một thiết bị cam kết. Không có thiết bị nào cố gắng làm cho người tham gia trở nên đức hạnh hơn. Nó giả định lợi ích cá nhân và sự dễ mắc sai lầm là điều hiển nhiên và hạn chế không gian hành động cho đến khi các kết quả xấu không còn mang lại lợi ích.

Đây là lập trường mà tôi đã đưa ra về khoảng cách Ngoài chuỗi . Bạn không thể thu hẹp khoảng cách này bằng cách yêu cầu người tham gia cư xử đúng mực, bởi vì động cơ phản bội mang tính cấu trúc và ý định không phải là yếu tố chịu tải. Bạn thu hẹp khoảng cách bằng cách thay đổi cấu trúc sao cho hành vi phản bội không còn mang lại lợi nhuận. Tôi đã gọi lập trường này là việc tăng cường yếu tố bất biến thay vì thay thế người tham gia, và tôi nghĩ rằng vụ rò rỉ dữ liệu là một minh chứng cụ thể hiếm hoi cho điều này ở quy mô mà hầu hết chúng ta không thể kiểm tra được.

Lý do bài viết này nên được đăng trên ethresearch thay vì một diễn đàn AI chung là vì hướng đi của nó. Các tác nhân tự trị đã và đang hoạt động như những người tìm kiếm, giải quyết vấn đề và thực thi ý định, và tỷ lệ hoạt động on-chain được khởi xướng bởi các bên tham gia không phải con người đang tăng lên. Chúng ta thường mô hình hóa các tác nhân đó là hợp lý và được xác định rõ ràng. Phân tích bộ điều khiển là một lời nhắc nhở rằng những người vận hành các tác nhân thực tế trong môi trường sản xuất không hề tin tưởng chúng theo cách đó. Họ đặt chúng trong các ràng buộc mang tính xác định vì họ kỳ vọng tác nhân đôi khi sẽ làm điều sai trái với sự tự tin tuyệt đối.

Nếu đó là giả định hoạt động đúng đắn, nó sẽ thay đổi cách chúng ta nên xác định các cơ chế mà các tác nhân tham gia. Có một vài câu hỏi mà tôi chưa có câu trả lời chắc chắn:

Liệu phân tích tính tương thích về động cơ khuyến khích đối với các cơ chế tương tác với người dùng có nên bao gồm một điều khoản về khả năng sai sót, trong đó người tham gia đôi khi thực hiện hành động không phải là phản ứng tối ưu với xác suất không nhỏ, thay vì giả định một người chơi hoàn toàn lý trí? Lập luận về trạng thái cân bằng tiêu chuẩn sẽ suy yếu nếu một phần đáng kể người tham gia tự tin là sai thay vì cố tình gây hấn về mặt chiến lược.

Khi cơ chế ràng buộc một tác nhân nằm Ngoài chuỗi và cơ chế mà tác nhân đó tham gia nằm on-chain, chúng ta đã tái tạo khoảng cách an toàn (airgap) ở cấp độ cao hơn. Sự ràng buộc và hành động được thực thi bởi các miền tin cậy khác nhau. Liệu có thiết kế nào mà trong đó phạm vi quyền hạn của tác nhân được cam kết on-chain, để sự ràng buộc và hành động cùng chia sẻ một miền thực thi?

Và điều ngược lại, đó là phần tôi thấy thú vị nhất. Mô hình khung bảo mật được phát hiện bởi những người không thể cải thiện thành phần cốt lõi và phải xây dựng mọi thứ xung quanh nó. Thiết kế cơ chế cũng có hình dạng tương tự. Chúng ta không thể khiến người tham gia trung thực, vì vậy chúng ta xây dựng cấu trúc khiến sự trung thực trở thành động thái có lợi. Nếu hai lĩnh vực này đang giải quyết cùng một vấn đề dưới những tên gọi khác nhau, thì thiết kế cơ chế on-chain đã biết điều gì mà kỹ thuật khung bảo mật tác nhân hiện đang tự mình khám phá lại?

Tôi rất muốn biết liệu những người khác ở đây có coi cách tiếp cận "đại lý như một người tham gia không đáng tin cậy" là một sự mở rộng hữu ích của bộ công cụ tương thích động cơ, hay là một sai lầm về mặt phân loại. Rất hoan nghênh các ý kiến phản biện.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan