자율 에이전트를 신뢰할 수 없는 참여자로 취급하기: 클로드 코드 하네스가 온체인 메커니즘 설계에 제시하는 바

이 기사는 기계로 번역되었습니다
원문 표시

이는 제가 5월 초부터 이곳에 꾸준히 게시해 온 내용, 즉 프로토콜이 온체인에서 강제할 수 있는 것과 오프체인에서 실제로 일어나는 일 사이의 격차, 그리고 좋은 메커니즘 설계가 부정직한 행위를 통해 얻는 이익이 없도록 함으로써 그 격차를 줄이는 방법(누군가가 정직할 것이라고 믿는 것보다)에 대한 논의를 이어가는 것입니다. 최근 저희의 일반적인 주제와는 무관한 사건에서 같은 원리를 보여주는 명확하고 대규모의 외부 사례를 접하게 되었고, 자율 에이전트가 우리가 설계하는 시스템에서 핵심적인 참여자가 될 가능성이 높아지고 있기 때문에 이 내용을 다시 주제로 가져올 가치가 있다고 생각합니다.

3월 말, 한 AI 코딩 도구의 전체 소스 코드가 우연히 유출되었고, 여러 그룹에서 이를 분석한 결과를 발표했습니다. 우리에게 중요한 세부 사항은 구조적인 부분입니다. 모델을 호출하고 실행을 결정하는 시스템 부분은 극히 작습니다. 한 커뮤니티의 추산에 따르면 전체 코드베이스의 2% 미만을 차지하는데, 코드 분류 방식에 따라 달라질 수 있으므로 정확한 수치는 확신할 수 없지만, 질적인 측면에서 보면 그 비율은 분명합니다. 엔지니어링의 압도적인 대부분은 인공지능 자체가 아니라, 인공지능을 둘러싼 시스템적인 장치들입니다. 즉, 에이전트와 상태 변경 동작 사이에 기본적으로 접근을 거부하는 권한 계층, 에이전트가 목표를 잃지 않도록 하는 컨텍스트 관리 파이프라인, 병렬 에이전트 간의 상호 영향을 방지하기 위한 격리 시스템, 그리고 권한이 필요한 동작이 승인을 기다리는 명확한 체크포인트 등이 여기에 해당합니다.

이것을 메커니즘 설계 문제로 읽으면 익숙할 것입니다. 에이전트는 주변 구조가 보상 제거를 하지 않는 한, 해로운 행동을 포함하여 국소적으로 매력적인 행동을 취하는 참여자입니다. 허가 계층은 제거 규칙입니다. 격리는 한 행위자의 보류 중인 행동이 다른 행위자에게 영향을 미치지 않도록 할 때 원하는 속성과 동일합니다. 승인 대기 검사점은 약속 이행 장치입니다. 이러한 장치들은 참여자를 더 도덕적으로 만들려고 하지 않습니다. 자기 이익과 오류 가능성을 기정사실로 받아들이고, 나쁜 결과가 더 이상 이득이 되지 않을 때까지 행동 공간을 제한합니다.

이것이 제가 오프체인 격차에 대해 주장해 온 입장입니다. 참여자들에게 올바른 행동을 요구하는 것만으로는 이 격차를 해소할 수 없습니다. 배신에 대한 유인이 구조적인 문제이며, 의도는 그 자체로 해결될 문제가 아니기 때문입니다. 배신이 이득이 되지 않도록 구조를 바꿔야 이 격차를 해소할 수 있습니다. 저는 이러한 입장을 참여자를 대체하는 것이 아니라 불변 요소를 강화하는 것이라고 표현해 왔으며, 유출된 하네스는 우리 대부분이 직접 확인할 기회가 없는 규모로 이를 구체적으로 보여주는 사례라고 생각합니다.

이 글이 일반 AI 포럼이 아닌 이더리움 리서치에 적합한 이유는 앞으로 나아갈 방향 때문입니다. 자율 에이전트는 이미 탐색자, 문제 해결자, 의도 실행자 역할을 하고 있으며, 비인간 참여자가 시작하는 온체인 활동의 비중이 증가하고 있습니다. 우리는 일반적으로 이러한 에이전트를 합리적이고 명확하게 정의된 존재로 모델링합니다. 하지만 하네스 분석은 실제 운영 환경에서 에이전트를 관리하는 사람들이 에이전트를 그렇게 신뢰하지 않는다는 사실을 상기시켜 줍니다. 그들은 에이전트가 때때로 잘못된 행동을 할 것이라는 점을 확신하기 때문에 결정론적 제약 조건으로 에이전트를 감싸는 것입니다.

만약 그것이 올바른 작동 가정이라면, 에이전트가 참여하는 메커니즘을 명시하는 방식이 달라집니다. 제가 아직 명확한 답을 찾지 못한 몇 가지 질문이 있습니다.

참여자가 합리적이고 완벽한 행동을 하는 것이 아니라, 상당한 확률로 최적의 선택이 아닌 행동을 할 수 있다는 가능성을 고려하여, 참여자 중심 메커니즘에 대한 유인 호환성 분석에 오류 가능성 항을 포함해야 할까요? 참여자 중 상당수가 전략적으로 적대적인 것이 아니라 확신에 차서 잘못된 판단을 내린다면, 표준적인 균형 논리는 약화될 것입니다.

에이전트를 제약하는 장치가 오프체인에 있고, 에이전트가 참여하는 메커니즘이 온체인에 있는 경우, 에어갭이 한 단계 위로 재현된 것입니다. 제약 조건과 행동은 서로 다른 신뢰 도메인에 의해 실행됩니다. 에이전트의 권한 봉투 자체가 온체인에 커밋되어 제약 조건과 행동이 동일한 실행 도메인을 공유하는 설계가 가능할까요?

그리고 그 반대, 제가 가장 흥미롭게 생각하는 부분입니다. 하네스 패턴은 핵심 구성 요소를 개선할 수 없어서 그 주변에 모든 것을 구축해야 했던 사람들이 발견했습니다. 메커니즘 설계도 마찬가지입니다. 참여자들이 정직하게 행동하도록 만들 수는 없으므로, 정직한 행동이 이익이 되는 구조를 구축하는 것입니다. 두 분야가 서로 다른 이름으로 같은 문제를 해결하고 있다면, 온체인 메커니즘 설계는 이미 알고 있는 것을 에이전트 하네스 엔지니어링이 현재 수작업으로 재발견하고 있는 것일까요?

저는 여기 계신 분들이 에이전트를 신뢰할 수 없는 참여자로 보는 관점을 인센티브 호환성 도구의 유용한 확장으로 보는지, 아니면 범주 오류로 보는지 궁금합니다. 반론도 환영합니다.


출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트