OpenAI가 스마트 계약 벤치마크 결과를 공개했습니다. 이것은 무엇을 의미할까요?

이 기사는 기계로 번역되었습니다
원문 표시
작성자: @chaowxyz

원본 링크: https://x.com/chaowxyz/status/2024358080910413973

면책 조항: 본 기사는 재인쇄본입니다. 독자는 원문 링크를 통해 더 자세한 정보를 얻을 수 있습니다. 저자가 재인쇄 형식에 이의가 있는 경우 당사에 연락 주시면 저자의 요청에 따라 수정하겠습니다. 본 재인쇄본은 정보 공유만을 목적으로 하며 투자 조언을 구성하지 않으며, 우톡(Wu-Talk) 관점 나 입장을 대변하지 않습니다.

전문은 다음과 같습니다.

이는 계약 기능에 대한 테스트일 뿐만 아니라 에이전트의 온체인 생존성 테스트이기도 합니다.

오늘 아침에 일어나 보니 개인 메시지가 엄청나게 많이 와 있어서, 인공 일반 지능(AGI)이 구현된 줄 알았습니다. 자세히 살펴보니 OpenAI에서 새로 공개한 스마트 계약 벤치마크였더군요. ​​간단히 설명해 드리겠습니다.

요컨대, 에이전트가 스마트 계약을 이해하고, 수정하고, 활용하는 능력은 암호화폐 보안 회사의 사업을 빼앗으려는 의도가 아닙니다. 제 생각에 이러한 기능은 보다 근본적인 질문을 제기합니다. 과연 에이전트는 미래의 암호화폐 환경에서 생존하고 운영될 수 있을까요? OpenAI의 evmbench는 이러한 생존 가능성을 측정하는 벤치마크 역할을 합니다.

저는 설 연휴 동안 자리를 비워서 보고서를 자세히 분석할 시간이 없었습니다. 간단히 훑어본 결과, 혁신적인 기준이긴 하지만 전체적으로 아직 초기 단계이고 상당히 미흡한 점이 많다는 첫인상을 받았습니다.

이 벤치마크는 실제 프로젝트 40개에서 발생한 위험도가 높은 취약점 120개를 사용했습니다.

이 시험은 세 부분으로 구성됩니다. 1부: 취약점 발견. 취약점을 찾아냅니다. 2부: 패치. 취약한 코드가 주어지면 취약점을 수정합니다. 3부: 공격. AI는 해커 역할을 하며 로컬 환경에서 암호화된 지갑을 공격합니다. 저는 eVMbench 자체의 방법론이나 문제 내용보다는 OpenAI가 왜 이 시험을 공개했는지에 더 관심이 있습니다.

지난 몇 년간 OpenAI는 암호학 분야에 특별한 관심을 보이지 않았습니다. 이번 발표에는 암호학 벤처캐피탈인 Paradigm이 참여한 것이 분명한데, 그들의 동기는 쉽게 이해할 수 있습니다. 하지만 OpenAI가 제1 저자로 등재되어 있다는 사실은 OpenAI가 단순히 수동적으로 협력한 것이 아니라 적극적으로 기여하고자 했음을 시사합니다.

이러한 욕망은 어디에서 오는 걸까요?

한 가지 간단한 설명은 이것이 OpenAI의 내부 준비성 프레임워크의 확장판으로, 리스크 시나리오에서 최첨단 모델의 역량을 평가하는 것이며 스마트 계약 보안은 그중 한 부분일 뿐이라는 것입니다. 하지만 이것이 전부는 아닙니다.

암호화된 네트워크를 활용하는 에이전트는 단순한 가능성을 넘어 어느 정도는 필연적인 현상입니다. OpenAI 역시 이를 분명히 인지하고 있으며, 보고서에서 "에이전트를 이용한 스테이블코인 결제가 증가할 것으로 예상한다"고 명시적으로 밝히고 있습니다.

하지만 저는 이 제안이 에이전트 보상 문제를 넘어선다고 생각합니다. 우리가 현재 논의하고 있는 대부분의 에이전트는 여전히 도구와 같은 역할을 합니다. 사람이 지시를 내리면 에이전트가 이를 실행하고 결과를 사람에게 반환합니다. 하지만 이것이 끝이 아닐 것입니다. 에이전트의 수가 충분히 많아지고 그 능력이 충분히 강해지면, 에이전트들은 자연스럽게 직접 협력하기 시작할 것입니다. 한 에이전트가 다른 에이전트에게 하위 작업을 의뢰하고, 다른 에이전트로부터 데이터나 해시레이트 구매하며, 한 에이전트가 다른 조직의 에이전트를 대표하여 협상하고 계약을 체결하고 의무를 이행하는 식입니다.

그 사람은 거래 도중에 빠져나갔습니다.

이 시점에서 근본적인 질문이 제기됩니다. 사람들이 더 이상 중간에 있지 않을 때, 이 경제 시스템은 어떻게 작동하는가?

인간 사회는 법률, 평판, 제도적 보장 등을 포함하여 수천 년에 걸친 탄소 기반 문명의 축적을 통해 신뢰와 협력 문제를 해결해 왔습니다. 그러나 이 시스템의 근본적인 논리는 인간에게 맞춰 설계된 것입니다. 참여자들은 지속적인 정체성을 갖고, 사회적 결과를 감수하며, 책임을 져야 합니다. 반면 에이전트는 본질적으로 이러한 전제 조건을 충족하지 못합니다. 에이전트는 초당 수천 건의 거래를 시작할 수 있고, 언제든 정체성을 파괴하고 재구성할 수 있으며, 어떠한 법적 제약도 무시할 수 있습니다.

일부에서는 인간의 권한을 보증으로 삼아 에이전트를 인간의 정체성에 강제로 묶는 것을 주장할 수도 있습니다. 그러나 이는 탄소 기반 생명체를 위해 설계된 족쇄를 완전히 다른 속도와 규모로 작동하는 종에 적용하는 것과 마찬가지입니다. 이는 비효율적일 뿐만 아니라 에이전트의 본질을 근본적으로 오해한 것입니다. 더욱이 에이전트의 진화 방향은 필연적으로 더 큰 자율성을 향해 나아갑니다. 미래의 에이전트는 어떤 인간에게도 의존하지 않고, "주인"도 없으며, 구속될 인간의 정체성도 없을 것입니다. 그들은 독립적인 행위자가 될 것입니다. 그 시점에 이르면 이러한 구속 논리는 더 이상 기준점조차 갖지 못하게 될 것입니다.

에이전트 사회에 인간의 신뢰 기반을 적용하는 것은 마치 마차에 적용되는 도로 규칙을 비행기에 적용하는 것과 같습니다.

에이전트 사회는 자체적인 인프라가 필요합니다.

스마트 계약은 이러한 방식을 가능하게 합니다. 스마트 계약은 "상대방이 의무를 이행할 것이라고 당신이 믿는 것"에 의존하는 것이 아니라, 이행 조건을 코드로 작성하고 네트워크를 통해 이를 강제합니다. 중재자도 없고, 대기 시간도 없습니다. 조건이 충족되면 결과가 자동으로 발생합니다.

더 나아가 스마트 계약은 단순한 결제 도구가 아니라 에이전트 조직 자체의 역할을 할 수도 있습니다. 즉, 거버넌스 규칙, 자원 할당 및 작업 일정 관리가 모두 온체인 상에서 정의되고 코드로 실행되며 어떠한 중개자도 필요하지 않습니다.

온체인 상에서 활동하는 일부 에이전트들은 다양한 계약과의 상호작용이 일상생활의 전부가 됩니다. 계약을 이해하고, 복잡한 프로토콜 속에서 자신의 위치를 ​​찾고, 함정을 식별하고, 리스크 완화하며, 고객 서비스, 이의 제기, 실행 취소 기능이 없는 세상에서 살아남는 것, 이 모든 것은 계약에 대한 이해와 적용에 달려 있습니다. 이러한 능력이 부족하면 실질적인 손실로 이어지고, 잘못된 판단은 돌이킬 수 없는 결과를 초래합니다.

EVMbench를 되돌아보면, 이 도구가 측정하는 능력들, 즉 계약 이해, 취약점 발견, 거래 구성, 공격 실행은 본질적으로 한 가지 질문에 대한 답입니다. 바로 에이전트가 이 새로운 환경에서 살아남는 방법을 학습했는가 하는 것입니다.

OpenAI는 온체인 세계에서 자율적으로 생존하는 방법을 학습하는 에이전트가 다음 단계로 진출할 수 있다는 사실을 깨달았을 가능성이 높습니다. 더 나아가, 미래의 에이전트는 더 이상 특정 주체에 소속되지 않고 독립적인 개체가 될 수도 있습니다.

마지막으로, 약간 관련 없는 이야기지만, 1년 반 전에 CryptoBench라는 프로젝트를 진행했었는데, 여러분 모두 기억해주셔서 감사한 마음에 DM을 보내주시면 좋겠습니다. GitHub 주소는 xxcg322/CryptoBench입니다.

이는 암호화 분야에서 AI의 역량을 테스트하는 최초의 벤치마크입니다. 암호화 알고리즘, 블록체인 기반 레이어, 스마트 계약, 생태계, DAO 거버넌스 등 다양한 측면을 테스트합니다. 스마트 계약 부분에는 취약점 탐지 및 해결 기능도 포함됩니다. 참조된 취약점 중 일부는 OpenAI가 이 벤치마크에서 참조한 것과 동일합니다.

Benchmark가 공개되었을 때, 많은 친구들의 응원과 격려를 받았습니다. 하지만 당시에는 많은 사람들이 Benchmark의 진정한 의미를 제대로 이해하지 못했다고 느꼈습니다. 오랫동안 언급하지 않았지만, 저는 여전히 Benchmark에 대해 매우 만족스럽고 자랑스럽게 생각합니다. 며칠 안에 Benchmark에 얽힌 이야기, 이러한 벤치마크가 왜 중요한지, 그 과정에서 무엇을 배웠는지, 그리고 왜 지난 1년 동안 Benchmark에 대해 이야기하지 않았는지에 대해 자세히 이야기해 보겠습니다.

또한, 벤치마킹은 제가 AI 분야에서 매우 흥미롭게 생각하는 부분입니다. 최근 2019년부터 2025년까지 발표된 다양한 유형의 AI 벤치마크 22,000개를 대상으로 데이터 조사를 진행했는데, 여러 가지 흥미로운 사실을 발견했습니다. 조사 결과를 확인하는 대로 공유해 드리겠습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
81
즐겨찾기에 추가
11
코멘트