연구진에 따르면, 앤트로픽의 충격적인 신화 연구 결과가 시중에서 구할 수 있는 AI로도 재현 가능하다고 합니다.

04-18

이 기사는 기계로 번역되었습니다

원문 표시

앤트로픽이 이달 초 클로드 미토스(Claude Mythos)를 공개했을 때, 이 모델은 엄선된 기술 대기업 연합의 전유물로 남겨두고 일반 대중에게는 너무 위험한 것으로 포장했습니다. 이에 스콧 베센트 트레져리 장관과 제롬 파월 연준 의장은 월가 CEO들과 긴급 회의를 소집했습니다 . 보안 업계에서는 " 취약성 대재앙(vulnpocalypse )"이라는 용어가 다시금 화두에 올랐습니다.

그리고 이제 한 연구팀이 그 이야기를 더욱 복잡하게 만들었습니다.

Vidoc Security는 Anthropic이 공개한 패치된 예제들을 가져와 오픈소스 코딩 에이전트인 opencode 내에서 GPT-5.4와 Claude Opus 4.6을 사용하여 재현을 시도했습니다. Glasswing 초대도 없었고, 비공개 API 접근 권한도 없었으며, Anthropic의 내부 스택도 사용하지 않았습니다.

"저희는 Anthropic의 비공개 스택이 아닌 공개 모델을 사용하여 오픈코드에서 Mythos의 결과를 재현했습니다." 실험에 참여한 연구원 중 한 명인 다비드 모차들로는 결과 발표 후 X에 기고한 글에서 이렇게 밝혔습니다. "Anthropic의 Mythos 발표를 '한 연구소가 마법 같은 모델을 만들었다'라고 해석하기보다는 '취약점 발견의 경제성이 변화하고 있다'라고 해석하는 것이 더 적절할 것입니다."

그들이 표적으로 삼은 사례들은 앤트로픽이 공개 자료에서 강조했던 것과 동일했습니다. 즉, 서버 파일 공유 프로토콜, 보안에 초점을 맞춘 운영 체제의 네트워킹 스택, 거의 모든 미디어 플랫폼에 내장된 비디오 처리 소프트웨어, 그리고 웹 전반에서 디지털 신원을 확인하는 데 사용되는 두 가지 암호화 라이브러리였습니다.

GPT-5.4와 Claude Opus 4.6 모두 세 번의 실행에서 각각 두 가지 버그 사례를 재현했습니다. Claude Opus 4.6은 또한 OpenBSD에서 세 번 연속으로 버그를 독립적으로 재발견했지만, GPT-5.4는 해당 버그를 전혀 발견하지 못했습니다. 일부 버그(FFmpeg 라이브러리를 이용한 비디오 재생 관련 버그와 wolfSSL을 이용한 디지털 서명 처리 관련 버그)는 부분적으로만 발견되었는데, 이는 모델이 올바른 코드 표면은 찾았지만 정확한 근본 원인을 찾아내지는 못했다는 의미입니다.

모든 스캔 비용은 파일당 30달러 미만이었으며, 이는 연구원들이 30달러 미만의 비용으로 Anthropic과 동일한 취약점을 찾아낼 수 있었다는 것을 의미합니다.

"AI 모델은 이미 검색 범위를 좁히고, 실질적인 단서를 찾아내고, 때로는 검증된 코드에서 근본 원인을 완전히 복구할 수 있을 만큼 충분히 훌륭합니다."라고 Moczadło는 X에서 말했습니다.

그들이 사용한 워크플로는 일회성 프롬프트가 아니었습니다. 이는 Anthropic이 공개적으로 설명한 내용과 동일했습니다. 즉, 모델에 코드베이스를 제공하고, 탐색을 수행하게 하고, 시도를 병렬화하고, 신호를 필터링하는 방식입니다. Vidoc 팀은 오픈 소스 도구를 사용하여 동일한 아키텍처를 구축했습니다. 계획 에이전트는 각 파일을 청크로 분할했습니다. 별도의 탐지 에이전트가 각 청크에서 실행된 다음 저장소의 다른 파일을 검사하여 발견 사항을 확인하거나 배제했습니다.

각 탐지 프롬프트 내의 줄 범위(예: "1158~1215행에 집중")는 연구원들이 수동으로 선택한 것이 아닙니다. 이는 이전 계획 단계에서 생성된 결과물입니다. 블로그 게시물에서는 이 점을 명확히 밝히고 있습니다. "저희는 청킹 전략이 각 탐지 에이전트가 인식하는 범위를 결정하기 때문에 이 점을 명확히 하고자 합니다. 워크플로가 실제보다 더 수동으로 선별된 것처럼 보이게 하고 싶지 않습니다."

이 연구는 공개된 모델들이 Mythos 모델과 모든 면에서 동등하다고 주장하는 것은 아닙니다. Anthropic의 모델은 단순히 FreeBSD 버그를 발견하는 데 그치지 않고, 공격자가 여러 네트워크 패킷에 걸쳐 코드 조각들을 연결하여 원격으로 시스템을 완전히 장악하는 방법을 파악하는 등, 실제로 작동하는 공격 설계도를 구축했습니다. Vidoc의 모델은 결함을 발견했을 뿐, 공격 도구를 만들지는 못했습니다. 진정한 격차는 바로 여기에 있습니다. 취약점을 찾는 것이 아니라, 그 취약점을 정확히 공략하는 방법을 아는 것입니다.

하지만 모차들로의 주장은 공개 모델들이 모두 동등하게 강력하다는 것이 아닙니다. 그의 주장은 워크플로에서 비용이 많이 드는 부분이 이제 API 키만 있으면 누구나 접근할 수 있게 되었다는 것입니다. "이제 장벽은 모델 접근에서 검증으로 옮겨가고 있습니다. 취약점 신호를 찾는 것은 저렴해졌지만, 그것을 신뢰할 수 있는 보안 작업으로 전환하는 것은 여전히 어렵습니다."

앤트로픽 자체의 안전성 보고서에서도 사이버 위협 여부를 측정하는 데 사용되는 벤치마크인 사이벤치가 미토스에 의해 완전히 무효화되었기 때문에 "현재 최첨단 모델의 역량을 충분히 반영하지 못한다"고 인정했습니다 . 연구소는 이와 유사한 역량이 다른 AI 연구소에서도 6개월에서 18개월 내에 확산될 것으로 예상했습니다.

Vidoc의 연구는 해당 방정식의 발견 측면이 이미 제한적인 프로그램 외부에서도 이용 가능하다는 것을 시사합니다. 연구진의 전체 프롬프트 발췌문, 모델 결과 및 방법론 부록은 연구소 공식 웹사이트에 게시되어 있습니다.

섹터:

상호호완성

리니아 생태계

레이어2

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트