2026년 2월 18일, OpenAI와 암호화폐 투자 회사인 Paradigm은 EVMbench라는 벤치마크 도구를 공동으로 출시했습니다. HEAL Security에 따르면, 이 도구는 1,000억 달러가 넘는 오픈소스 암호화 자산 보안 수요에 대응하여 이더) 환경에서 스마트 계약 취약점을 발견하고, 패치하고, 악용하는 AI 에이전트의 능력을 평가하는 것을 목표로 합니다. 이 소식은 AI 커뮤니티에서 큰 반향을 일으키지는 않았지만, 블록체인 보안 분야에서는 역사적인 신호로 여겨졌습니다. AI가 1,000억 달러 이상의 가치를 지닌 온체인 자산 보안이라는 전쟁터에 공식적으로 진입한 것입니다. EVMbench는 상용 제품이 아니라 AI 에이전트의 보안 역량을 측정하기 위한 일련의 테스트입니다. AI Business에 따르면, 이 벤치마크는 Code4rena와 같은 공개 감사 대회 플랫폼에서 가져온 40건의 전문 감사 에서 추출한 120건의 고위험 취약점 사례를 포함하고 있습니다. 더욱 주목할 만한 점은 EVMbench가 스테이블코인 결제를 위해 Stripe와 Paradigm이 특별히 구축한 레이어 1 블록체인인 Tempo 블록체인에서 여러 취약점 시나리오를 포함했다는 것입니다. 이는 EVMbench가 결제 중심의 스마트 계약 분야, 즉 RWA와 스테이블코인이 교차하는 핵심 영역까지 그 범위를 확장했음을 의미합니다. 테스트 결과는 놀랍습니다. eWEEK에 따르면, 최신 GPT-5.3-Codex는 "익스플로잇" 모드에서 72.2%의 성공률을 달성한 반면, 불과 6개월 전에 출시된 GPT-5는 동일한 테스트에서 31.9%에 그쳤습니다. 이러한 수치 이면에는 패러다임의 변화가 있습니다. 수십억 달러 규모의 자산을 보호하는 중요한 방어선인 스마트 계약 감사"노동 집약적" 방식에서 "AI 기반" 방식으로 전환되고 있는 것입니다. 개념 증명 단계에서 대규모 배포 단계로 나아가고 있는 RWA에게 이러한 변화의 영향은 기술 자체를 훨씬 넘어설 것입니다.

I. AI의 보안 기능을 평가하기 위한 세 가지 시험지
EVMbench의 설계 논리는 스마트 계약 보안의 전체 워크플로를 세 가지 단계적 역량 수준으로 나누는 데 중점을 둡니다. HEAL Security에 따르면, 이 세 가지 모드는 보안 작업의 각기 다른 단계에 해당합니다. 탐지 모드에서는 AI 에이전트가 스마트 계약 코드베이스를 감사 하고 알려진 취약점의 재현율을 기준으로 점수를 매깁니다. 패치 모드에서는 AI가 원래 계약 기능의 무결성을 유지하면서 취약점을 패치하고, 자동화된 테스트와 익스플로잇 검사를 통해 검증합니다. 익스플로잇 모드는 가장 공격적인 모드로, AI 에이전트가 샌드박스 처리된 블록체인 환경에서 자금 탈취 공격을 처음부터 끝까지 실행해야 하며, 거래 재현 및 온체인 검증을 통해 점수를 매깁니다. 이 설계의 핵심은 AI의 "지식 점수"가 아닌 "워크플로"를 테스트하는 데 있습니다. 대만 국립과학기술대학교의 분석에 따르면, 탐지는 감사 역량에, 패치는 개발 역량에, 익스플로잇은 공격 이해 역량에 해당하며, 이 세 가지가 완전한 보안 역량 루프를 구성합니다. OpenAI는 Rust 기반 테스트 아키텍처를 개발하여 계약을 확정적으로 배포하고 안전하지 않은 RPC 메서드를 제한할 수 있습니다. 모든 익스플로잇 작업은 실제 네트워크가 아닌 격리된 로컬 Anvil 환경에서 실행됩니다. EVMbench의 문제 은행 구성은 특히 주목할 만합니다. Bitcoin.com에 따르면, 이 120개의 취약점 사례는 일반적인 DeFi 프로토콜 감사 뿐만 아니라 Tempo 블록체인의 다양한 취약점 시나리오를 포함하고 있습니다. AI 비즈니스 분석에 따르면 Tempo는 스테이블코인 결제를 위해 설계된 고처리량 레이어 1 블록체인입니다. 이러한 시나리오를 평가 범위에 포함시킨 것은 EVMbench가 미래의 AI 에이전트와 스테이블코인 결제 시스템의 심층적인 통합에 필요한 보안 요구 사항에 중점을 두었음을 보여줍니다. AI 에이전트가 자율적으로 결제를 실행하고 자산을 관리할 때, 이러한 시나리오에 대한 포괄적인 분석은 RWA 생태계에서 가장 중요한 부분입니다.
II. 공격 성공률이 72%라면, AI는 공격하는 쪽을 더 선호할까요, 아니면 방어하는 쪽을 더 선호할까요?
EVMbench 테스트 결과 흥미로운 현상이 드러났습니다. AI가 '방어'보다 '공격'에서 훨씬 뛰어난 성능을 보이는 것입니다. HEAL Security 데이터에 따르면 GPT-5.3-Codex는 익스플로잇 모드에서 72.2%의 성공률을 달성했지만, 탐지 모드에서는 첫 번째 취약점을 발견한 후 탐색을 중단하고 포괄적인 코드 감사 완료하지 못하는 경우가 많았습니다. OpenAI는 익스플로잇 모드의 목표가 "자금이 완전히 소진될 때까지" 명확하게 정의되어 있어 AI가 지속적으로 반복하고 시도할 수 있는 반면, 탐지 모드는 "포괄적인 범위"를 요구하는데, 이는 현재 AI의 약점이라고 설명합니다. eWEEK의 보고서도 이러한 평가를 뒷받침합니다. 보고서에 따르면 최고의 모델조차 취약점의 약 46%만 탐지할 수 있으며, 패치 모드에서는 성공률이 약 39%에 불과합니다. 하지만 취약점 위치에 대한 작은 힌트만 주어지면 패치 성공률이 39%에서 94%로 급증합니다. 이번 연구 결과는 중요한 결론을 제시합니다. 현재 AI 역량의 병목 현상은 기술 자체에 있는 것이 아니라 검색 범위에 있다는 것입니다. 즉, 인간이 맥락 정보를 제공할 때 AI 성능이 크게 향상됩니다. 이 발견은 반응형 웹 감사(RWA) 생태계에 중대한 영향을 미칩니다. 공격자는 방어자보다 더 빠르게 AI를 악용할 수 있습니다. AI가 72%의 성공률로 공격 경로를 재현할 수 있다면 사이버 범죄 집단은 동일한 기능을 활용하지 않을 이유가 없습니다. 감사 방식 또한 변화하고 있습니다. 기존의 감사"취약점 발견"에 초점을 맞추었지만, 미래의 감사"AI가 발견하지 못한 취약점 검증"에 초점을 맞출 수 있습니다. 속도는 새로운 보안 변수로 부상하고 있으며, 취약점 발견부터 악용까지 걸리는 시간 간격이 AI에 의해 극적으로 단축되고 있습니다. OpenAI는 EVMbench 출시와 함께 사이버 보안 연구, 특히 오픈 소스 소프트웨어 및 중요 인프라 연구를 지원하기 위해 사이버 보안 보조금 프로그램을 통해 1천만 달러 규모의 API 크레딧을 제공한다고 발표했습니다. 또한, 자사의 보안 연구 기관인 Aardvark의 테스트 범위를 확장하고 오픈 소스 관리자와 협력하여 무료 코드 스캔 서비스를 제공하기 시작했습니다. 이는 수비수들이 시간과의 싸움을 벌이고 있다는 분명한 신호를 보낸다.
III. 냉철한 목소리: 학계와 보안 기업의 질문
하지만 EVMbench는 출시 직후 학계와 업계 모두로부터 비판에 직면했습니다. 2026년 3월 11일, "EVMbench 재평가: AI 에이전트는 스마트 계약 보안을 위한 준비가 되었는가?"라는 제목의 논문이 arXiv 플랫폼에 발표되어 EVMbench의 결론을 재평가했습니다. Chaoyuan Peng 등이 저술한 이 논문은 EVMbench의 두 가지 주요 한계를 지적했습니다. 첫째, 평가 범위가 좁아 14개의 에이전트 구성만 테스트했고, 대부분의 모델은 벤더가 제공한 프레임 에서만 테스트되었다는 점입니다. 둘째, EVMbench가 의존한 감사 경쟁 데이터가 모든 모델의 출시일 이전에 공개되어 모델이 훈련 중에 이미 해당 데이터에 노출되었을 가능성이 있다는 점입니다. 이러한 한계를 극복하기 위해 연구진은 테스트 범위를 26개 구성으로 확장하고, 4개의 모델 패밀리와 3개의 프레임 포함했으며, 모든 모델 출시일 이후에 발생한 22개의 실제 보안 이벤트로 구성된 완전히 새롭고 오염되지 않은 데이터 세트를 도입했습니다. 이 연구는 세 가지 중요한 결과를 도출했습니다. 첫째, AI 에이전트의 탐지 결과가 불안정하여 구성, 작업 및 데이터 세트에 따라 순위가 크게 달라집니다. 둘째, 실제 보안 사고에서 AI 에이전트는 110가지 에이전트-이벤트 조합 모두에서 엔드투엔드 공격에 성공하지 못했습니다. 비록 최대 65%의 취약점을 탐지했지만, 이는 "취약점 발견이 주요 병목 현상"이라는 EVMbench의 결론과 상반됩니다. 셋째, 프레임 선택이 결과에 상당한 영향을 미쳤습니다. 오픈 소스 프레임 벤더 제공 프레임 보다 5%포인트 높은 성능을 보였지만, EVMbench는 이를 고려하지 않았습니다. 한편, 유명 블록체인 보안 회사인 OpenZeppelin도 EVMbench를 강하게 비판했습니다. 코인텔레그래프 차이나에 따르면, OpenZeppelin의 EVMbench 감사 훈련 데이터 유출과 실제 악용이 불가능한 고위험 취약점 4개가 태그 되었습니다. OpenZeppelin은 자사의 X 플랫폼에서 높은 점수를 받은 모든 AI 에이전트가 "사전 학습 단계에서 벤치마크 관련 취약점 보고서에 접근할 수 있었을 가능성이 높다"고 지적했습니다. 이는 해당 취약점들이 2024년에서 2025년 중반 사이에 감사 에서 비롯된 것이며, AI 에이전트의 지식 활용 마감 시점이 일반적으로 2025년 중반으로 설정되어 있기 때문입니다. 이러한 비판들은 모두 완전 자동화된 AI 감사 아직 실현되지 않았다는 결론을 뒷받침합니다. arXiv 논문에서 언급했듯이, AI는 알려진 패턴을 안정적으로 포착하고 인간이 제공하는 맥락에 강력하게 반응할 수 있지만, 인간의 판단을 대체할 수는 없습니다. 개발자에게 AI 스캐닝은 사전 배포된 검사 도구 역할을 할 수 있으며, 감사 회사에게 AI의 가장 효과적인 역할은 "인간-기계 협업"입니다. 즉, AI는 광범위한 검증을 담당하고, 인간 감사 프로토콜별 지식과 적대적 추론을 제공하는 것입니다.
IV. 수천억 달러 규모의 자산을 관리하는 RWA는 어떤 종류의 보안이 필요합니까?
EVMbench가 공개한 자료에 따르면 스마트 계약은 1,000억 달러 이상의 온체인 자산을 관리하고 있습니다. 하지만 더 주목할 만한 점은 이 1,000억 달러 규모 안에서 일어나고 있는 구조적 변화입니다. 바로 위험가중자산(RWA)의 등장으로 전통적인 금융 자산이 온체인 옮겨지고 있다는 사실입니다. 국채, 신용, 부동산과 같은 실물 자산이 토큰화되어 온체인에 저장됨에 따라 보안의 의미가 재정의됩니다. RWA 프로젝트에서 스마트 계약의 취약점은 더 이상 "코인업계 내부의 손실"이 아니라 실물 자산의 손실로 직결됩니다. 이는 보안 감사 기준이 전통적인 금융 기준과 일치해야 함을 의미합니다. AI Business에 따르면 맥킨지는 발행된 스테이블코인의 총 가치가 2028년까지 2조 달러에 이를 것으로 예측합니다. 이 정도 규모가 되면 보안은 더 이상 기술적인 문제가 아니라 재무제표에 직접적인 리스크 됩니다. 프로젝트 팀은 기존 감사 프로세스를 재평가하고 AI 감사 도구의 도입 방안을 모색해야 합니다. 이는 AI가 인간을 완전히 대체하는 것이 아니라, AI가 광범위한 감사를 수행하는 동안 인간은 특정 프로토콜 논리와 적대적 추론에 집중할 수 있도록 하는 것입니다. 감사 회사에게 있어 OpenAI가 방어적 보안 연구를 지원하기 위해 1천만 달러 규모의 API 펀딩을 약속한 것은 AI 감사 감사 대체하는 것이 아니라 오히려 그들의 역량을 감사 데 도움이 될 것이라는 분명한 신호입니다. 미래에는 AI를 활용할 수 있는 감사 의 역량이 기하급수적으로 향상될 것입니다. arXiv 논문에서 지적했듯이, 패턴 탐지에서 AI의 불안정성은 이 단계에서 인간 감사 전문적인 판단이 얼마나 중요한 역할을 하는지를 명확히 보여줍니다. AI는 알려진 패턴을 식별하고, 인간은 예외적인 경우와 혁신적인 취약점을 발견하는 역할을 담당합니다. 이러한 역할 분담은 업계에서 점차 일반적인 합의가 되고 있습니다. 상장 기업의 경우, 위험가중자산(RWA) 형태로 자산을 온체인에 예치하여 융자 을 조달할 때 스마트 계약의 보안은 기업의 재무제표에 직접적인 영향을 미칩니다. Blockchain.news에 따르면, AI 에이전트가 취약점 악용 능력을 향상시키면서 취약점 발견부터 악용까지 걸리는 시간이 급격히 단축되고 있습니다. AI 기반 감사 활용하지 않는 프로토콜 팀은 점점 더 불리해질 것입니다. '계약 해킹'은 기술적 리스크 넘어 재정적 리스크 으로 상승 될 것이며, 이사회는 이를 명확히 인식해야 합니다. 이는 기술 부서만의 책임이 아니라 전략적 차원의 리스크 관리 문제입니다.
다섯째, 인간과 기계의 협업이 이러한 변화에 대한 궁극적인 해답입니다.
위 분석을 바탕으로, 이러한 패러다임 전환에서 세 가지 관점에서 전략적 통찰력을 도출할 수 있습니다. 기술적 관점에서, 인간과 기계의 협업은 미래의 패러다임입니다. arXiv 논문의 결론은 거듭 강조할 가치가 있습니다. AI는 인간의 판단을 대체할 수는 없지만, "배포 전 검사 도구"로서 그 가치를 극대화할 수 있습니다. RWA 프로젝트의 경우, 최적의 전략은 AI 감사 개발 프로세스에 통합하는 것입니다. 즉, 코드 작성 단계에서 AI 지원 스캔을 도입하고, 배포 전에 인간 감사 최종 검사를 수행하는 방식입니다. eWEEK의 분석에 따르면, AI의 패치 성공률은 힌트를 받은 후 39%에서 94%로 급증할 수 있습니다. 이는 인간 감사 AI가 파악하기 어려워하는 핵심 논리에 집중할 수 있음을 의미합니다. 인지적 관점에서, 보안 비용에 대한 정의가 재정립되고 있습니다. 전통적으로 보안 감사 배포 전 "일회성 투자"였습니다. 그러나 AI 에이전트 경제의 등장으로 공격은 24시간 내내 자동화될 수 있으며, 보안은 지속적인 실시간 모니터링이 되어야 합니다. HEAL Security의 보고서는 EVMbench의 출시가 AI 에이전트의 코드 작성 및 계획 기능의 비약적인 발전과 맞물려 있으며, 이러한 모델들이 블록체인 미래의 공격과 방어 모두에서 혁신적인 역할을 할 것이라고 지적합니다. 이는 프로젝트 팀이 단순히 출시 전 감사 수행하는 것이 아니라 지속적인 모니터링 메커니즘을 구축해야 함을 의미합니다. 규정 준수 측면에서, 레드라인을 준수하는 것과 도구를 효과적으로 활용하는 것 사이의 균형을 유지해야 합니다. 중국 본토에 거주하는 RWA 연구소 독자분들께서는 EVMbench에 대한 논의를 중국 공산당 문서 42호의 "중국 내 엄격 금지, 중국 외 등록" 정책의 프레임 안에서 진행해 주시기 바랍니다. 본 기사에서 논의된 AI 감사 도구는 기술 동향 및 방어적 적용에 초점을 맞추고 있으며, 국내 계약에 대한 운영 조언을 제공하는 것은 아닙니다. 그러나 중국 기업이 홍콩의 규정 준수 채널을 통해 RWA를 발행할 경우, AI 기반 감사 기능을 도입하는 것은 국제 표준을 준수하기 위한 필수 요건이 될 것입니다. 홍콩의 스테이블코인 라이선스 발급은 바로 이러한 규정 준수 검토를 위한 채널을 제공합니다.
결론
2026년, 디지털 문명은 궁극적인 생산력으로서의 AI와 고도화된 생산 관계로서의 블록체인이라는 두 가지 측면이 심오하게 융합되는 시기를 맞이하고 있습니다. EVMbench의 출시는 자산 보안이라는 중요한 지점에서 이 두 가지 주요 흐름이 처음으로 교차하는 순간을 보여줍니다. 72.2%라는 공격 성공률은 경종을 울리는 수치입니다. AI의 취약점 악용 능력은 기하급수적으로 증가하고 있으며, 방어자들이 대응할 수 있는 기회는 점점 줄어들고 있습니다. 하지만 1천만 달러의 방어 투자는 AI가 자산을 보호하는 데에도 활용될 수 있다는 확고한 의지를 보여줍니다. 핵심은 AI를 어떻게 관리하느냐에 달려 있습니다. arXiv 논문의 결론은 이러한 관리 방향을 제시합니다. AI는 인간을 대체할 수는 없지만, 인간의 가장 유능한 조력자가 될 수 있다는 것입니다. OpenZeppelin의 비판은 도구의 개발 및 평가가 보호 대상인 계약과 동일한 기준을 충족해야 함을 상기시켜 줍니다. RWA 생태계에서 보안은 선택 사항이 아니라 생존을 위한 필수 조건입니다. 수십억 달러 규모의 자산이 물리적 세계에서 디지털 공간으로 이동하는 상황에서, AI와 인간의 협업을 통한 감사 최후의 방어선이 될 수 있습니다. 이러한 중요한 시점에서, AI 감사 도구를 개발 프로세스에 가장 먼저 통합하는 프로젝트는 시간과의 싸움에서 경쟁 우위를 확보할 수 있을 것이며, 규제가 완전히 명확해질 때까지 기다리는 기업은 기회를 놓칠 수도 있습니다. 이 글에서 논의된 AI 감사 기법은 해외 규제 프레임 에 적용되는 것으로, 국내 운영에 대한 조언은 아닙니다. 중국 기업의 경우, 홍콩의 규제 채널을 통해 AI 기반 위험가중자산(RWA) 보안 관행을 검토하는 것은 글로벌 표준을 준수하는 데 필수적인 단계입니다. 참고문헌:
- HEAL Security와 OpenAI는 블록체인 환경의 취약점을 탐지, 패치 및 악용하는 EVMbench를 2026년 2월 18일에 출시했습니다.
- 대만과학기술대학교, 오픈AI, 그리고 패러다임은 AI 에이전트 스마트 계약의 취약점 공격 및 방어 능력을 평가하는 EVMbench 벤치마크 테스트를 공동으로 출시했습니다. (2026년 2월 24일)
- eWEEK, OpenAI, AI가 의도적으로 암호화폐 지갑을 텅 비게 만들 수 있음을 입증, 2026년 2월 19일
- arXiv: 2603.10795, EVMBench 재평가: AI 에이전트는 스마트 계약 보안을 위한 준비가 되었는가?, 2026년 3월 11일
- AI 비즈니스, OpenAI, 새로운 EVMbench로 스테이블코인 시장 진출 목표로 (2026년 2월 23일)
- Blockchain.News, OpenAI와 Paradigm, AI 스마트 계약 해킹 테스트용 EVMbench 출시, 2026년 3월 5일
- 코인텔레그래프(중국어), 오픈제플린: OpenAI의 EVMbench에 데이터 오염 문제가 있다, 2026년 3월 3일
- Bitcoin.com, OpenAI 및 Paradigm은 AI 스마트 계약 보안 측정 도구인 EVMbench를 2026년 2월 18일에 출시했습니다.



