將自主代理人視為不可信參與者：Claude Code 框架對鏈上機制設計的啟示

06-16

本文為機器翻譯

展示原文

這延續了我自五月初以來一直在討論的觀點，即協議在鏈上能夠強制執行的內容與鏈下實際發生的情況之間存在差距，以及優秀的機制設計如何通過使不誠實的行為無利可圖而非僅僅信任任何人都會誠實來縮小這種差距。最近發生的一件與我們通常討論的主題無關的事情，為我提供了一個清晰、大型的外部案例來佐證這一原則，我認為值得將其重新納入討論，因為自主代理即將成為我們在此設計的系統中的重要參與者。

三月下旬，一款人工智能編碼工具的完整源代碼意外洩露，多個團隊隨後發表了分析報告。與我們相關的細節是結構性的。調用模型並決定執行操作的系統部分非常小。據社區估計，它佔代碼庫的比例不到百分之二，我不建議完全依賴這個數字，因為它完全取決於你如何對代碼進行分類，但這種定性劃分是毋庸置疑的。絕大部分工程工作並非圍繞人工智能本身，而是圍繞人工智能的機制：在智能體和任何狀態改變操作之間設置默認拒絕權限層；構建上下文管理管道，確保智能體不會迷失目標；實現隔離，防止並行智能體相互干擾；以及設置顯式檢查點，用於等待特權操作的批准。

將其理解為一個機制設計問題，你會發現它並不陌生。智能體是一個參與者，它會採取局部有利的行動，包括有害的行動，除非周圍結構消除了採取該行動的獎勵。許可層是一種清除規則。隔離性與我們防止一個參與者的待處理行動影響到另一個參與者的行動時所追求的屬性相同。等待批准的檢查點是一種承諾機制。所有這些機制都不試圖使參與者變得更有道德。它假定參與者具有自利性和易犯錯性，並限制行動空間，直到不良結果不再帶來收益為止。

這就是我一直為鏈下差距辯護的立場。你不能通過要求參與者規範行為來彌合差距，因為背叛的動機是結構性的，而意圖本身並不具有決定性作用。彌合差距的方法是改變結構，使背叛不再有利可圖。我一直將這種立場稱為增強不變性而非取代參與者，我認為洩露的硬件正是對此的一種異常具體的展示，其規模之大，大多數人都無法企及。

之所以這篇文章應該發表在 ethresearch 而不是一般的 AI 論壇上，是因為它的發展方向。自主代理已經開始扮演搜索者、求解者和意圖執行者的角色，而且鏈上活動中由非人類參與者發起的份額正在不斷上升。我們傾向於將這些代理建模為理性且目標明確的。然而，本文的分析提醒我們，在生產環境中運行真實代理的人員根本不會這樣信任它們。他們會給代理施加確定性約束，因為他們完全預料到代理偶爾會犯錯。

如果這是正確的運行假設，那麼我們應該如何定義代理人參與的機制就會發生改變。以下幾個問題我還沒有最終答案：

對於面向代理人的機制，激勵相容性分析是否應該包含一個可錯項，即參與者有時會以相當大的概率做出非最優反應，而不是假設參與者完全理性？如果相當一部分參與者並非出於策略上的對抗，而是出於自信的錯誤判斷，那麼標準的均衡論證就會減弱。

當約束代理的機制位於鏈下，而它參與的機制位於鏈上時，我們就相當於在更高一層複製了物理隔離。約束和操作由不同的信任域強制執行。是否存在這樣一種設計：代理的權限範圍本身就提交到鏈上，從而使約束和操作共享一個執行域？

反過來，這也是我最感興趣的部分。“代理-代理”模式是由那些無法改進核心組件，只能圍繞核心組件構建一切的人發現的。機制設計也遵循同樣的模式。我們無法讓參與者誠實，所以我們構建了一種結構，使誠實成為有利可圖的行為。如果這兩個領域用不同的名稱解決的是同一個問題，那麼鏈上機制設計已經掌握了哪些知識，而代理-代理工程目前正在手動重新發現呢？

我很想知道，在座各位是否認為將代理人視為不受信任的參與者這一框架是對激勵相容性工具包的有效擴展，還是認為這是一個範疇錯誤。歡迎提出不同意見。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論