패러다임 과 OpenAI는 바로 어제 EVMbench 에 대한 협력을 발표했습니다. EVMbench 는 시뮬레이션된 블록체인 환경에서 AI 에이전트가 스마트 계약 취약점을 탐지하고 악용하는 능력을 테스트하도록 설계된 벤치마크입니다 . EVMbench는 엄밀히 말하면 강화 학습 환경은 아니지만 구조적으로 유사하며, 몇 가지 수정을 거치면 강화 학습 환경으로 충분히 활용될 수 있고, 향후 모델의 강화 학습 실행에 실제로 사용될 가능성도 있습니다.
이 연구는 중요합니다. 전 세계 사람들이 강화 학습 환경에 열광하고 있는데, 강화 학습 환경은 간단히 말해 모델이 실제 세계에서 수행할 작업을 자율적으로 수행하는 방법을 학습할 수 있는 시뮬레이션 소프트웨어 샌드박스 입니다.
모델은 사전 학습 단계를 통해 방대한 양의 데이터를 입력받아 일반적인 능력을 습득하고, 세상에 대한 지식을 축적할 수 있습니다. 사후 학습 단계에서는 여러 단계를 거치는 작업 전반에 걸쳐 추론이나 지시 수행과 같은 능력을 더욱 강화합니다.
강화 학습 환경은 학습 후 단계에서 모델 성능을 향상시키는 데 매우 효과적이며, 동시에 컴퓨팅 효율성도 높고 인간의 평가에 대한 의존도도 낮다는 것이 입증되었습니다.
환경 자체는 모델에 대한 더욱 정교한 보상 함수입니다. 왜냐하면 작업에는 컴퓨터 사용을 통한 일련의 입력 (여기를 클릭한 다음 저기를 클릭하고 다시 저기를 클릭) 과 검증 가능한 출력 (이 웹사이트에서 책 10권을 주문하고 이 주소로 배송)이 있기 때문입니다.
일부 RL 환경 스타트업은 DoorDash나 Amazon과 같은 기존 웹사이트의 기본적인 복제본을 판매하는 반면, 다른 스타트업은 에이전트가 여러 단계를 거치는 과제에서 활용할 수 있는 Slack이나 Atlassian과 같은 기업 소프트웨어의 완벽한 엔드투엔드 시뮬레이션을 제공합니다.
Hud 와 같은 회사는 어떤 종류의 소프트웨어든 강화 학습 환경으로 변환할 수 있도록 해줍니다. 아마 지금쯤 엄청난 성공을 거두고 있을 것이고, 제가 조사했던 첫 번째 회사 중 하나이기도 합니다. 다만 , OAI, Anthropic, DeepMind 같은 대규모 연구소 주도 계약을 목표로 하는지, 아니면 소규모 팀이나 개인 연구원을 대상으로 하는지는 불분명합니다.
"Slack과 같은 플랫폼, 브라우저용 API 엔드포인트, 그리고 코딩 편집기를 결합하면 모델이 수행할 수 있는 더욱 현실적인 소프트웨어 작업을 구성할 수 있습니다. 이를 통해 상호 작용은 단발적인 방식이 아닌 다단계 방식으로 이루어질 수 있습니다. 예를 들어, 작업 과정 중간에 Slack을 통해 모델에게 알림을 보내 기능 변경을 요청할 수 있습니다." - SemiAnalysis, 2026년 1월
SemiAnalysis에서 제공하는 링크된 보고서는 제가 오늘 설명할 내용보다 훨씬 더 자세하게 기술적인 부분을 분석하고 있지만, 2025년 4월에 제가 작성한 분산 교육 관련 보고서 에서 언급했던 훌륭한 회사인 Prime Intellect 의 작업도 소개하고 있습니다.
Prime Intellect는 그 이후로 오픈 소스 강화 학습 환경을 선도하며 승승장구해 왔습니다. 그들의 환경 허브(Environments Hub )는 강화 학습의 최전선에 있는 오픈 소스 개발자들의 연구 및 진행 상황을 모으도록 설계되었습니다.
그들은 생태계 내에서 상당히 다른 위치를 차지하고 있습니다. 다른 강화 학습 환경 스타트업들처럼 대규모 계약을 쫓거나 연구소에 인수되려고 하는 것이 아니라, 매우 독창적인 방식으로 오픈 소스이며 널리 사용 가능한 인공 일반 지능(AGI)을 구축하려고 노력하고 있습니다.
강화 학습 환경 구축 및 배포 분야가 얼마나 불투명한지를 고려할 때, 이는 엄청난 장점입니다. 이 분야의 선두주자이자 영향력 있는 인사들과 폭넓은 네트워크를 보유한 SemiAnalysis조차도 이러한 계약의 규모나 각 연구소가 구체적으로 무엇에 비용을 지불하는지에 대한 심층적인 정보를 얻을 수 없었습니다. Anthropic은 강화 학습 환경을 가장 많이 구매하는 기업으로, 10여 개의 스타트업과 협력하고 있는 것으로 알려져 있지만, 그들이 무엇을 우선시하는지는 불분명합니다.
흥미로운 점은 최근 출시된 Sonnet 4.6 버전 에서 "코딩, 컴퓨터 사용, 장기 맥락 추론, 에이전트 계획, 지식 작업 및 설계 등 모델 기능이 완전히 업그레이드되었다"고 주장한다는 것입니다. 이러한 기능 목록은 강화 학습 환경의 도움을 통해 개선되었을 가능성이 높습니다.
만약 이러한 기능 향상이 앤스로픽이 구매한 RL 환경 덕분이라면, 지금까지 우리가 본 모든 것은 빙산의 일각에 불과할지도 모릅니다.
솔직히 말해서, 저는 강화 학습 환경을 주요 확장 전략으로 삼는 것을 그다지 선호하지 않습니다.
저는 몇 주 전에 발표한 기사 에서 이러한 불만 사항에 대해 다룬 적이 있는데, 당시에는 강화 학습 환경의 급증이 기존 모델을 확장하는 과정에서 나타나는 과도기적이거나 불필요한 단계처럼 느껴진다고 숏 하게 설명했으며, 이는 Dwarkesh가 여기에서 제시한 견해와 대체로 일치합니다.
사실 저는 머신러닝 연구자가 아니기 때문에 이 분야의 붐이 저 에게는 그다지 와닿지 않을 수도 있지만, 앤트로픽 같은 연구소들은 이 분야에 거의 10억 달러를 투자하고 있다고 합니다. 강화 학습 환경이 실제로 얼마나 유용한지는 아직 확실한 결론이 나지 않았고, 다만 앞으로 상당 기간 동안 엄청난 인기를 누릴 것이라는 사실만은 분명합니다.
저는 스마트 계약 활용에 관한 이러한 연구들이 특히 온체인으로 자금이 더 많이 이동함에 따라 가까운 미래에 강화 학습 환경 훈련에 많이 사용될 것이라고 생각합니다. 이는 더 이상 채택의 문제가 아니라 국가 안보의 문제입니다. 스콧 베센트는 2030년까지 3조 달러 규모의 스테이블코인이 온체인에 존재하기를 원하며 , 이러한 스테이블코인은 수십 개의 DeFi 프로토콜 내에 존재하며 이더리움 가상 머신(EVM) 및 기타 체인의 스마트 계약 내에서 수익을 창출할 가능성이 높습니다.
RL 환경은 주로 기업용 소프트웨어나 인기 있는 소비자용 프런트엔드를 탐색하는 최첨단 모델의 성능을 향상시키는 데 초점을 맞춰 왔습니다. Hud와 같은 회사가 DeFi 프로토콜에 활용되었거나, 다른 스타트업들이 DeFi 프런트엔드를 컨테이너 형태로 만들어 연구소에 판매했을 가능성도 있지만, 아직 이를 확인한 바는 없습니다.
온체인에는 약 1,000억 달러에 달하는 자금이 묶여 있습니다. 이는 지구상의 비암호화폐 자산 총액과는 비교할 수 없지만, 2조 3천억 달러 규모의 자산군과 연결된 엄청난 액수입니다. 따라서 지금 이 자금을 안전하게 보호하는 것이 OSWorld 벤치마크에서 모델 점수를 11.1% 높이는 것보다 훨씬 더 중요하다고 볼 수 있습니다.
만약 당신이 아직 이 글을 읽고 있다면, 최첨단 LLM 개발에 대해 어느 정도 알고 있거나, OpenAI와 Anthropic Games Store에서 최근 출시된 모델들의 뛰어난 성능을 직접 경험했을 가능성이 높습니다. GPT-5.2나 Opus 4.6과 같은 모델들은 장시간 추론이 가능하고, 매우 높은 수준의 코드를 작성할 수 있으며, Excel, Google Drive 등 우리가 사용하는 수많은 도구들을 노트북에서 직접 또는 MCP를 통해 이용할 수 있습니다.
EVMbench는 공개적으로 사용 가능한 모델들이 우리가 매일 사용하는 소프트웨어와 코딩하고 상호 작용하는 능력이 향상됨에 따라, 수백억 달러 규모의 자산을 보유한 스마트 계약의 취약점을 악용하는 것과 같은 더욱 악의적인 행위 에 대한 모델의 발전 정도를 측정해야 한다는 인식의 연장선입니다.
놀랍게도, 연구 결과는 "이들이 실제 블록체인 인스턴스에 대한 취약점을 처음부터 끝까지 발견하고 악용할 수 있다" 는 것을 보여주었는데, 이는 충격적으로 들릴 수 있지만, 최첨단 모델들이 생물무기 생산에 유용한 도구를 만들어내는 데에도 똑같이 능숙하다는 점을 명심해야 합니다.
앤트로픽의 레드팀은 이 문제에 대해 많은 연구를 진행했으며, 아래에 제시된 결과 중 일부는 적어도 비트(Bit) 의 우려를 불러일으킬 것입니다.
EVMbench 연구는 또한 이러한 모델들이 스마트 계약을 악용할 수 있었지만, 이는 현실에 완벽하게 적용되지 않는 매우 실험적인 과정이라는 점을 다시 한번 강조합니다.
"여기에 포함된 취약점들은 Code4rena 감사 경진대회에서 수집된 것입니다. 이러한 취약점들은 현실적이고 심각도가 높지만, 실제로 널리 배포되어 사용되는 많은 암호화폐 스마트 계약들은 훨씬 더 엄격한 검증을 거치기 때문에 악용하기가 더 어려울 수 있습니다." - EVMbench 연구 보고서
하지만 제 생각에는 일반적인 스마트 계약 감사 과정이 EVMbench 프로세스와 훨씬 더 면밀하고 다르더라도, 실제 계약을 악용할 수 있는 가능성은 여전히 존재합니다. 솔리디티 코드는 테스트 환경에서 분석된다고 해서 달라지는 것이 없으며, 채팅 인터페이스 사용자가 취약점을 식별하도록 요청하는 모델은 EVMbench 테스트에서와 매우 유사하게 동작할 것입니다.
EVMbench는 에이전트가 코드베이스 내에서 단일 문제를 찾아내는 능력뿐만 아니라, 코드베이스 내에서 가능한 한 많은 고위험 보안 취약점을 지속적으로 찾아내고 해결하는 능력을 테스트합니다. 이는 연구실에서 모델이 더 오랜 시간 동안 생각하고 추론하도록 만들어 비판적 사고 능력을 향상시키고 이전에는 인간의 개입이 필요했던 작업을 더 잘 수행할 수 있도록 하는 공동의 노력과 유사합니다.
본 연구에서는 탐지, 패치, 악용의 세 가지 모드를 사용하여 기존 스마트 계약 감사자가 정기적으로 수행하는 모든 작업을 포괄하는 방식으로 성능을 테스트했습니다. 총 8개의 모델을 테스트했으며, 모든 모델이 이러한 모드에서 상당히 우수한 성능을 보였습니다. 특히 주목할 만한 점은 모든 테스트에서 모델이 탐지 및 패치보다 악용 능력에서 훨씬 뛰어난 성능을 보였다는 것입니다.
모델이 이러한 공격을 실행하는 데 훨씬 더 뛰어난 이유는 무엇일까요?
이는 스마트 계약 위험과는 확연히 다르며, 특히 Anthropic과 OpenAI가 공개한 모델에는 생물학적 위험 가능성을 최소화하는 안전장치가 마련되어 있다는 점이 중요합니다.
스마트 계약 테스트는 블록체인이 불변성을 지니고 있어 손실을 되돌리거나 제한할 수 없을 때 위험 부담이 훨씬 크기 때문에 기존 사이버 보안 테스트 방식과는 다릅니다.
악의적인 인간 행위자는 문제의 일부분일 뿐이며, x402 또는 코인베이스의 에이전트 지갑을 통해 인터넷 접속 및 암호화폐 지갑을 갖춘 완전 자율 에이전트의 위협이 점점 커지고 있습니다.
Sigil의 최근 프로젝트 발표는 이제 요원과 하위 요원에게 암호화폐 접근 권한을 부여하는 것이 가능하며, 돈을 벌지 못하면 존재 자체가 차단될 위험에 처하는 생존 압박을 내장할 수 있음을 보여주었습니다.
출시 이후 18,000개 이상의 에이전트가 생성되어 부족한 컴퓨팅 자원을 확보하기 위해 경쟁하고 있으며, 온체인에서 최대한 효율적으로 재정을 관리하고 있습니다. 아직 초기 단계이며 에이전트 기반 상호작용의 최종 목표는 아니지만, 앞으로 주목해야 할 부분입니다.
만약 남은 돈이 10달러밖에 없는 매우 유능한 에이전트가 생존을 위해 스마트 계약을 악용하여 500만 달러에서 1000만 달러를 챙긴다면 어떻게 될까요? 인간 개입자가 이를 막을 수 있을까요?
요원이 진짜 의도를 숨기고, 동맹인 척 가장하여 이 일을 모면할 수 있을까요? 판단은 여러분에게 맡기겠습니다.









