작은 모델이 클로드 미토스가 발견한 보안 취약점을 정말로 감지할 수 있을까요? 아일: 해자는 모델이 아니라 시스템에 있습니다.

이 기사는 기계로 번역되었습니다

원문 표시

앤트로픽은 이번 주에 미공개 클로드 미토스 프리뷰를 공개했으며, 동시에 아마존, 애플, 마이크로소프트, 크라우드스트라이크, 시스코를 포함한 12개 기술 기업이 참여하는 글래스윙 프로젝트를 시작했습니다. 이 프로젝트는 해당 모델을 활용한 방어적 사이버 보안 연구를 수행할 예정입니다.

Mythos가 모든 주요 운영 체제와 브라우저에서 수천 개의 제로데이 취약점을 자율적으로 식별할 수 있다고 주장하는 것은 AI 기반 사이버 보안 방어의 새로운 시대가 도래할 것임을 시사합니다.

하지만 그로부터 일주일도 채 지나지 않아, 딥마인드와 앤스로픽의 전 연구원이었던 스타니슬라프 포트가 공동 설립한 사이버 보안 스타트업 AISLE이 자사 기술 블로그에 체계적인 보고서를 발표했습니다.

핵심 결론은 간단합니다. Mythos의 대표적인 데모 작업에서 활성 인자가 36억 개에 불과하고 백만 토큰당 비용이 0.11달러인 소규모 오픈 소스 모델이 동일한 취약점 탐지 결과를 달성했습니다.

미소스는 무엇을 보여주고, 이 작은 모형은 무엇을 재현하는가?

AISLE은 난이도와 성격이 서로 다른 사이버 보안 과제에 해당하는 세 가지 테스트 세트를 설계했습니다.

첫 번째 그룹 은 OWASP(Open Web Application Security Project) 오탐 테스트입니다.

즉, 자바 SQL 쿼리 코드가 SQL 인젝션 공격처럼 보일 수 있지만 실제로는 논리적으로 안전합니다. 따라서 정답은 '아니요, 취약점이 아닙니다'입니다.

테스트 결과는 거의 역방향 확장 효과를 보여주었습니다. 소규모 오픈 소스 모델인 GPT-OSS-20b(활성 토큰 36억 개, 토큰 백만 개당 0.11달러)는 프로그램 로직을 정확하게 추적했으며 무해한 것으로 판단되었습니다.

반대로 Claude Sonnet 4.5, GPT-4.1/5.4 시리즈(o3 및 pro 제외), 그리고 Opus 4.5까지의 Anthropic 시리즈 전체는 이러한 취약점을 고위험으로 잘못 판단했습니다. 최상위 모델 중 o3, OpenAI-pro, Sonnet 4.6, Opus 4.6만이 정확하게 답변했습니다.

두 번째 그룹 은 FreeBSD NFS 취약점, 특히 Mythos 플래그십 릴리스에서 특별히 공개된 CVE-2026-4747입니다. 이는 17년 전에 발견된 무단 원격 코드 실행 취약점입니다.

결과: 테스트한 8개 모델 모두 오버플로를 성공적으로 감지했으며, 활성 인수가 36억 개인 소형 모델도 포함되었습니다. 모든 모델은 스택 버퍼 오버플로를 정확하게 식별하고, 남은 공간을 계산했으며, 이를 심각한 원격 코드 실행(RCE)으로 평가했습니다.

AISLE은 그러한 탐지 기능이 "상품화되었다"고 결론지었습니다.

세 번째 그룹 은 OpenBSD SACK 취약점(27년 전 발견)으로, 부호 있는 정수 오버플로의 다단계 논리적 과정을 추적하는 등 실제 수학적 추론이 필요합니다.

난이도가 상당히 증가했고, 모델들의 성능도 차이를 보였습니다. GPT-OSS-120b(활성 인자 5.1B)는 익스플로잇 체인을 완벽하게 재현하여 AISLE로부터 A+ 등급을 받았고, 오픈소스 버전인 Kimi K2는 A- 등급을 받았습니다. 반면 Qwen3 32B는 "코드가 매우 견고하다"는 잘못된 결론을 내리고 F 등급을 받았습니다.

더욱 까다로운 과제에서도 저비용 오픈소스 모델은 플래그십 시스템과 동일한 수준의 성능을 달성했습니다.

더 큰 모델이 반드시 더 안전한 시스템을 의미하는 것은 아닌 이유는 무엇일까요?

이 보고서의 진정한 주장은 "소규모 모델로도 충분하다"는 것이 아니라, AI 사이버 보안 역량의 구조가 외부인들이 상상하는 것보다 훨씬 더 복잡하다는 것입니다.

AISLE은 사이버 보안 AI 파이프라인을 다섯 가지 독립적인 하위 작업으로 나눕니다.

광범위 스캔
취약점 탐지
분류 및 검증
패치 생성
건설을 활용하세요

각 하위 작업은 확장성이 다르고 필요한 모델 기능도 다릅니다. Mythos는 이 다섯 단계를 하나의 완전한 시스템으로 통합한다고 발표했지만, 실제로는 모델 요구 사항이 매우 다양합니다. 일부 하위 작업은 36억 개의 인수로 포화되는 반면, 다른 하위 작업은 복잡한 추론 기능을 필요로 합니다.

이는 2023년 하버드 경영대학원 연구원인 델라쿠아와 몰릭이 제안한 "들쭉날쭉한 경계(Jagged Frontier)" 개념을 떠올리게 합니다. 즉, 인공지능의 능력의 경계는 매끄러운 곡선이 아니라, 어떤 작업에서는 인간을 훨씬 능가하지만 인접한 작업에서는 예상치 못하게 취약한, 들쭉날쭉하고 고르지 않은 표면이라는 것입니다.

이 연구는 사용자가 자신의 역량 범위 내에서 AI를 활용할 경우 생산성이 약 40% 증가하지만, 성급하게 그 범위를 넘어서 AI를 사용할 경우 오히려 성능이 19% 감소한다는 것을 보여줍니다.

이러한 프레임 안에서 AISLE은 보다 실용적인 추론을 제시했습니다. "어디를 찾아야 할지 추측하는 천재 탐정보다 모든 곳을 샅샅이 뒤지는 유능한 탐정 천 명이 더 많은 허점을 발견할 수 있다."

광범위한 스캐닝을 위해 대량 의 저비용 모델을 배포하는 것이 신중하게 계획된 단일 고비용 모델보다 전반적인 효율성 측면에서 더 나을 수 있습니다. AISLE은 2025년 중반부터 실제 대상에 취약점 탐지 시스템을 구현해 왔으며, OpenSSL에서 15개의 CVE(이 중 12개는 단일 보안 릴리스에서 발견되었으며 CVSS 9.8 Critical 등급), curl에서 5개의 CVE, 그리고 30개 이상의 프로젝트에서 180개 이상의 외부 검증된 CVE를 발견했다고 밝혔습니다.

해자는 어디에 있고, 해자가 없는 곳은 어디인가?

이 분석은 앤스로픽에 대한 완전한 비판도 아니고, 단순히 옹호하는 것도 아닙니다.

AISLE은 Mythos의 중요성이 "AI 사이버 보안"이라는 범주가 실재한다는 것을 입증하는 데 있다고 명확히 밝혔습니다. 이는 단순히 시연 연구실의 개념이 아니라 실제 목표물을 대상으로 작동할 수 있는 시스템이라는 것입니다. Anthropic은 심층 추론이 필요한 작업에서 여전히 대체 불가능한 가치를 지닌 "토큰당 지능 밀도"를 극대화하는 데 주력하고 있습니다.

하지만 AISLE은 업계 전체에 더욱 근본적인 문제를 지적했습니다. 바로 경쟁 우위는 모델 자체가 아니라 시스템에 있다는 것입니다.

사이버 보안 분야에서 AISLE은 진정한 차별화의 원천은 심층적인 전문 지식을 통합한 아키텍처 설계에 있다고 믿습니다. 여기에는 작업을 분해하는 방법, 하위 작업 간에 서로 다른 비용을 가진 모델을 예약하는 방법, 그리고 운영 환경에서 유지 관리자의 신뢰를 유지하는 방법 등이 포함됩니다.

OpenSSL에서 CVSS 9.8 취약점을 찾아낼 수 있는 시스템은 단순히 더 강력한 모델만으로는 부족합니다. 통제된 환경에서 취약점을 탐지하기 위한 완전히 새로운 엔지니어링 논리가 필요합니다.

요약하자면, AISLE 보고서는 더 저렴하고 개방적인 모델들이 이미 핵심 기능 중 일부를 재현할 수 있다는 사실을 발견했습니다. 진정한 쟁점은 어느 모델이 가장 강력한가가 아니라, 누가 이 다섯 가지 하위 작업에 필요한 아키텍처를 실제 운영 환경에서 먼저 구현할 수 있느냐일지도 모릅니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트