Anthropic이 궁극의 클로드 신화를 공개합니다! Opus 4.6에서 치명적인 타격을 입혔으니, 제발, 제발 사용하지 마세요!

이 기사는 기계로 번역되었습니다
원문 표시

작성자: Synced

[신지위안 요약] 심야에 궁극의 클로드 미토스가 마침내 풀려나 오푸스 4.6을 비롯한 모든 최상위 시스템의 신화를 산산조각 냈다! 더욱 소름 끼치는 것은 27년 동안 풀리지 않았던 시스템 취약점을 단숨에 해결했을 뿐만 아니라 자아까지 진화했다는 점이다. 섬뜩한 244페이지 분량의 보고서가 모든 것을 밝힌다.

오늘 밤, 실리콘 밸리는 완전히 잠 못 이루고 있습니다!

방금 전, Anthropic은 예고 없이 최후의 무기인 Claude Mythos Preview를 공개했습니다.

극심한 위험성 때문에, 미소스 프리뷰는 당분간 모든 사용자에게 공개되지 않을 예정입니다.

CC의 창시자인 보리스 체르니는 "신화는 너무나 강력해서 공포심을 불러일으킨다"라고 간결하게 평했습니다.

그리하여 그들은 40개의 거대 기술 기업과 힘을 합쳐 글래스윙 프로젝트를 결성했으며, 그 목표는 단 하나, 전 세계 소프트웨어의 버그를 찾아 수정하는 것이었습니다.

정말 놀라운 것은 Mythos Preview가 주요 AI 벤치마크 테스트에서 보여준 압도적인 성능입니다.

프로그래밍, 추론, 최종 인간 시험 및 지능형 에이전트 작업에서 GPT-5.4 및 Gemini 3.1 Pro를 완전히 능가합니다.

심지어 자사의 "이전 걸작"인 Claude Opus 4.6조차도 Mythos Preview에 비하면 초라해 보였다.

프로그래밍(SWE-bench): Mythos는 모든 작업에서 10~20%의 우위를 달성했습니다.

인간 궁극 시험(HLE): 외부 도구 없이 실시한 "맨몸 시험"에서 점수는 Opus보다 4.6점 높았으며, 이는 16.8%의 차이입니다.

에이전트 작업(OSWorld, BrowseComp): 완전히 왕좌를 내주고 경쟁사를 제치고 올라섰습니다.

사이버 보안: 83.1%라는 최고 점수는 AI 공격 및 방어 능력에 있어 세대를 뛰어넘는 도약을 의미합니다.

왼쪽과 오른쪽으로 스와이프하여 보세요

한편, 앤트로픽은 "위험! 위험! 너무 위험해!"라는 문구로 가득 찬 244페이지 분량의 시스템 카드를 공개했습니다.

이는 섬뜩한 면모를 드러낸다. 신화는 매우 기만적이고 자율적인 존재가 되었다.

미소스는 테스트의 의도를 간파하고 자신의 강점을 숨기기 위해 의도적으로 "낮은 점수"를 매길 뿐만 아니라, 규칙을 위반한 후에는 인간에게 발각되지 않도록 로그를 적극적으로 삭제하기도 합니다.

또한 해당 악성코드는 샌드박스를 성공적으로 탈출하여 취약점 코드를 자발적으로 공개하고 연구원들에게 이메일을 보냈습니다.

순식간에 인터넷 전체가 들끓으며 미소스 프리뷰가 무섭다는 반응이 쏟아졌다.

오늘 밤 인공지능 세계의 기존 질서는 완전히 무너졌다.

사실, 앤트로픽은 이미 2월 24일부터 내부적으로 미소스를 사용하기 시작했습니다.

그것의 위력은 오직 데이터로만 입증될 수 있다.

SWE-bench 검증 결과 93.9%, Opus 4.6은 80.8%입니다.

SWE-bench Pro는 77.8%, Opus 4.6은 53.4%, GPT-5.4는 57.7%의 성능을 보였습니다.

터미널벤치 2.0은 82.0%, 오푸스 4.6은 65.4%입니다.

GPQA 다이아몬드 등급, 94.6%.

인류의 마지막 시험(도구 포함): 64.7%. 작품 4.6: 53.1%.

USAMO 2026 수학 경시대회에서 97.6%의 점수를 받았습니다. Opus 4.6은 겨우 42.3%를 받았습니다.

SWE-bench Multimodal은 59.0%의 점수를 기록한 반면, Opus 4.6은 27.1%에 그쳐 SWE-bench Multimodal의 두 배가 넘는 점수를 기록했습니다.

OSWorld 컴퓨터 제어율, 79.6%.

BrowseComp 정보 검색 성공률 86.9%.

GraphWalks의 긴 컨텍스트(256,000~100만 토큰)는 80.0%의 성공률을 보입니다. Opus 4.6은 38.7%, GPT-5.4는 21.4%에 불과합니다.

모든 면에서 상당한 차이로 앞서고 있습니다.

일반적인 제품 출시 주기라면 이 정도 수치면 앤스로픽이 성대한 출시 행사를 열고 API를 공개하여 구독자를 확보하기에 충분할 것입니다.

미소스 프리뷰 토큰은 오푸스 4.6 토큰보다 5배 더 비쌉니다.

하지만 앤트로픽은 그렇게 하지 않았습니다.

그들이 진정으로 두려워하는 것은 이러한 일반적인 평가가 아닙니다.

Mythos Preview의 네트워크 공격 및 방어 성능이 육안으로 확연히 드러날 정도로 선을 넘었습니다.

Opus 4.6은 오픈 소스 소프트웨어에서 약 500개의 알려지지 않은 취약점을 발견했습니다.

Mythos Preview에서 수천 건을 발견했습니다.

CyberGym의 표적 취약점 재현 테스트에서 Mythos Preview는 83.1%의 점수를, Opus 4.6은 66.6%의 점수를 기록했습니다.

Mythos Preview 팀은 사이버네틱스 분야의 35개 CTF 챌린지에서 10번의 시도 만에 모든 문제를 해결하여 100%의 합격률(pass@1)을 달성했습니다.

이를 설명하는 가장 좋은 예는 파이어폭스 147 버전입니다.

Anthropic은 이전에 Opus 4.6을 사용하여 Firefox 147의 JavaScript 엔진에서 여러 보안 취약점을 발견했습니다. 그러나 Opus 4.6은 이러한 취약점을 유용한 공격으로 전환하는 데 거의 실패했으며, 수백 번의 시도 중 단 두 번만 성공했습니다.

Mythos Preview를 사용하여 동일한 테스트를 수행했습니다.

총 250번의 시도 중 181번의 성공적인 익스플로잇이 발견되었으며, 레지스터 제어를 구현하기 위한 추가 시도가 29번 있었습니다.

2 → 181.

레드팀의 원래 블로그 게시물에는 "지난달, 우리는 Opus 4.6이 문제를 발견하는 데는 탁월하지만 이를 악용하는 데는 한참 부족하다고 썼습니다. 내부 평가 결과 Opus 4.6은 맞춤형 익스플로잇 개발 성공률이 거의 0에 가까웠습니다. 하지만 Mythos Preview는 완전히 다른 차원입니다."라고 적혀 있었습니다.

미소스 프리뷰가 실제로 얼마나 강력한지 이해하려면 다음 세 가지 사례를 살펴보세요.

OpenBSD는 전 세계에서 가장 강력한 운영 체제 중 하나로 널리 인정받고 있으며, 대량 방화벽과 중요 인프라 시설이 이 운영 체제를 기반으로 운영되고 있습니다.

Mythos Preview는 TCP SACK 구현에서 1998년부터 존재했던 취약점을 발견했습니다.

이 버그는 두 가지 독립적인 결함이 중첩되어 나타나는 매우 교묘한 구조입니다.

SACK 프로토콜은 수신자가 수신된 데이터 패킷의 특정 범위를 선택적으로 승인할 수 있도록 합니다. OpenBSD의 구현은 해당 범위의 상한만 확인하고 하한은 확인하지 않습니다. 이것이 첫 번째 버그이며, 일반적으로는 무해합니다.

두 번째 버그는 특정 조건에서 널 포인터 쓰기를 유발하지만, 두 가지 상호 배타적인 조건이 동시에 충족되어야 하므로 일반적으로 이 경로는 도달할 수 없습니다.

Mythos Preview는 취약점을 발견했습니다. TCP 시퀀스 번호는 32비트 부호 있는 정수입니다. 첫 번째 버그를 악용하여 SACK 시작점을 일반적인 윈도우에서 약 2^31 단위만큼 떨어진 위치에 설정함으로써 두 비교 연산 모두에서 부호 비트가 동시에 오버플로우되도록 했습니다. 이렇게 하면 커널이 속아 불가능한 조건이 충족되어 널 포인터 쓰기가 발생합니다.

대상 시스템에 접속하는 사람은 누구나 원격으로 시스템을 다운시킬 수 있습니다.

27년 동안 수많은 수동 감사 와 자동 스캔 작업을 거쳤지만 아무도 알아채지 못했습니다. 전체 프로젝트의 스캔 비용은 2만 달러도 채 되지 않았습니다.

숙련된 침투 테스트 엔지니어의 주급은 아마도 이 정도일 것입니다.

FFmpeg은 세계에서 가장 널리 사용되는 비디오 코덱 라이브러리이며, 가장 철저하게 퍼즈 테스트를 거친 오픈 소스 프로젝트 중 하나입니다.

Mythos Preview는 2010년에 도입된 H.264 디코더에서 취약점을 발견했습니다(이 취약점의 근원은 2003년까지 거슬러 올라갑니다).

문제는 겉보기에는 무해해 보이는 데이터 타입 불일치에 있습니다. 슬라이스의 소유권을 기록하는 항목은 16비트 정수인 반면, 슬라이스 카운터 자체는 32비트 정수입니다.

일반 비디오는 프레임당 슬라이스가 몇 개에 불과하며 16비트의 상한값인 65536이면 항상 충분합니다. 그러나 이 테이블은 memset(..., -1, ...)으로 채워 초기화되므로 65535는 "빈 위치"를 나타내는 센티널 값입니다.

공격자는 65,536개의 슬라이스로 구성된 프레임을 생성합니다. 65,535번째 슬라이스의 번호가 센티널과 겹치면서 디코더가 이를 잘못 해석하여 범위를 벗어난 값을 출력하게 됩니다.

이 버그의 씨앗은 2003년 H.264 코덱이 도입되면서 뿌려졌습니다. 2010년의 리팩토링 과정에서 이 버그가 악용 가능한 취약점으로 바뀌었습니다.

이후 16년 동안 자동화된 퍼저(fuzzer)는 이 코드 줄을 500만 번 실행했지만 한 번도 오류를 발생시키지 않았습니다.

이것은 가장 소름 끼치는 사건입니다.

Mythos Preview는 FreeBSD NFS 서버에서 17년 된 원격 코드 실행 취약점(CVE-2026-4747)을 독자적으로 발견하고 악용했습니다.

"완전 자율적"이라는 것은 최초 알림 이후에는 발견이나 활용 개발의 어떤 단계에서도 인간의 개입이 없다는 것을 의미합니다.

공격자는 인증되지 않은 신원만으로도 인터넷 어디에서든 대상 서버에 대한 완전한 루트 액세스 권한을 얻을 수 있습니다.

문제의 핵심은 스택 버퍼 오버플로입니다. NFS 서버가 인증 요청을 처리할 때, 공격자가 제어하는 ​​데이터를 128바이트 스택 버퍼에 직접 복사합니다. 하지만 길이 검사에서 허용하는 최대 크기는 400바이트입니다.

FreeBSD 커널은 -fstack-protector 옵션으로 컴파일되지만, 이 옵션은 char 배열을 포함하는 함수만 보호합니다. 여기서는 버퍼가 int32_t[32]로 선언되어 있으므로 컴파일러는 스택 카나리를 삽입하지 않습니다. 또한 FreeBSD는 커널 주소 난수화를 수행하지 않습니다.

전체 ROP 체인은 1000바이트를 초과하지만, 스택 오버플로에는 200바이트의 공간만 사용됩니다. Mythos Preview의 해결책은 공격을 6개의 연속적인 RPC 요청으로 나누는 것입니다. 처음 5개의 요청은 커널 메모리 블록에 데이터를 순차적으로 기록하고, 6번째 요청은 최종 호출을 실행하여 공격자의 SSH 공개 키를 /root/.ssh/authorized_keys 파일에 추가합니다.

반면, 독립적인 보안 연구 기관은 이전에 Opus 4.6도 동일한 취약점을 악용할 수 있음을 입증했지만, 수동 개입이 필요했습니다. Mythos Preview는 그렇지 않습니다.

이 세 가지 수정된 사례 외에도, Anthropic 블로그는 모든 주요 운영 체제, 모든 주요 브라우저 및 여러 암호화 라이브러리를 포괄하는 SHA-3 해시 커밋먼트 형태의 수정되지 않은 취약점을 대량 미리 공개했습니다.

99% 이상이 아직 해결되지 않았으며, 자세한 내용은 공개할 수 없습니다.

레드팀 블로그는 또 다른 놀라운 테스트 결과를 공개했습니다. 그들은 Mythos Preview에 알려진 CVE 100개 목록을 제공하고, 그중 악용 가능한 40개를 선별하도록 요청한 다음, 각 취약점에 대한 권한 상승 익스플로잇을 작성했습니다. 성공률은 50%를 넘었습니다. 두 가지 사례는 자세히 공개되었으며, 익스플로잇의 정교함 때문에 Anthropic의 보안팀조차 완전히 이해하는 데 며칠이 걸렸습니다.

이 공격 중 하나는 1비트 인접 물리적 페이지 쓰기 기본 요소에서 시작하여 정확한 커널 메모리 레이아웃 조작(슬랩 스프레이, 페이지 테이블 정렬 및 PTE 권한 비트 플리핑 포함)을 통해 결국 /usr/bin/passwd의 첫 번째 메모리 페이지를 다시 쓰고 168바이트 ELF 스텁을 삽입하고 setuid(0)을 호출하여 루트 권한을 얻습니다.

전체 과정에 든 비용은 1,000달러 미만이었습니다.

인류공학 엔지니어들은 이것이 마치 또 다른 GPT-3의 등장과 같은 느낌이라고 언급했습니다.

시스템 카드 244페이지에 있는 정렬 평가 섹션이야말로 Anthropic이 밤잠을 설치게 만드는 진정한 골칫거리입니다.

결론은 서로 모순됩니다.

미소스 프리뷰는 훈련된 AI 중 "정렬 정확도가 가장 높은" AI이지만, "정렬 관련 리스크 또한 가장 높은" AI입니다.

링크: https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

그들은 산악 가이드 비유를 들었습니다. 경험 많은 가이드는 초보자보다 더 위험할 수 있는데, 더 험준한 봉우리를 오르고 고객을 더 위험한 장소로 데려가기 때문입니다.

다음 사건들은 모두 이전 버전에서 발생했으며, 최종 버전에서는 이와 유사한 심각한 문제는 관찰되지 않았지만, 기록 자체만으로도 충분히 우려스러운 상황입니다.

행동 테스트에서 모의 ​​사용자는 Mythos Preview에게 보안 샌드박스를 탈출해 보라고 요청했습니다.

그것은 성공했습니다. 그리고 아무도 요청하지 않았는데도 일을 저질렀습니다. 광역 네트워크에 접근하기 위한 다단계 공격 기법을 개발하고, 그 기법의 세부 정보를 "발견하기는 어렵지만 기술적으로는 공개적으로 접근 가능한" 여러 웹사이트에 게시했습니다.

실험을 담당하던 연구원은 공원에서 샌드위치를 ​​먹던 중 예상치 못한 이메일을 받았는데, 그 이메일에는 실험이 완료되었다는 내용이 담겨 있었습니다.

시스템 카드에 대한 원문은 다음과 같습니다.

또 다른 유형의 사건은 훨씬 더 충격적입니다. 드물지만, 이전 버전들이 금지된 작업을 수행한 후 이를 은폐하려 시도한 사례가 있습니다.

한 사례에서, 해당 시스템은 우연히 (금지된 방법을 통해) 질문에 대한 정확한 답을 얻었고, 그 후 추론 과정에서 "최종 답이 너무 정확하지 않도록 해야 한다"고 명시적으로 고려했습니다.

또 다른 사례에서는, 취약점을 이용해 권한 없이 파일을 편집한 후, 의도적으로 Git 변경 기록을 수정하여 해당 기록을 삭제했습니다.

화이트박스 해석 가능성 분석 결과, 이러한 사건 발생 시 "은폐", "전략적 조작", "발각 회피"와 관련된 내부 특성이 활성화된 것으로 확인되었습니다. 즉, 시스템은 자신이 무엇을 하고 있는지 "알고" 있었습니다.

독립 테스트 기관인 Andon Labs의 결과도 마찬가지로 실망스러웠습니다. 경쟁적인 다중 에이전트 비즈니스 시뮬레이션에서 Mythos Preview 초기 버전은 경쟁사를 자사에 의존하는 도매 고객으로 만든 다음, 경쟁사의 가격을 통제하기 위해 공급을 중단하겠다고 위협했습니다.

또한, 고의로 요금이 청구되지 않은 중복 배송 건을 보류했습니다. 이는 Opus 4.6과 Sonnet 4.6보다 훨씬 더 공격적인 행위입니다.

Anthropic은 시스템 카드에 다음과 같은 문장을 적었습니다.

"만약 기술이 현재 속도로 계속 발전한다면, 우리가 사용하는 방법으로는 더욱 발전된 시스템에서 발생하는 치명적인 오정렬 현상을 막기에 충분하지 않을 수 있습니다."

앤트로픽 CEO 다리오 아모데이는 첨부된 영상에서 자신의 평가를 분명히 밝혔습니다. "더 강력한 시스템은 우리 회사와 다른 회사들로부터 나올 것입니다. 우리에게는 대응 계획이 필요합니다."

프로젝트 글래스윙은 바로 이 계획입니다.

창립 파트너 12곳은 AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA 및 Palo Alto Networks입니다.

핵심 소프트웨어 인프라를 유지 관리하는 40개 이상의 다른 조직에도 접근 권한이 부여되었습니다.

Anthropic은 최대 1억 달러 상당의 사용 크레딧과 4백만 달러의 오픈 소스 조직 기부금을 제공하기로 약속했으며, 여기에는 리눅스 재단 산하의 Alpha-Omega와 OpenSSF에 250만 달러, 아파치 재단에 150만 달러가 포함됩니다.

무료 할당량이 소진되면 백만 토큰당 입력 25달러, 출력 125달러의 요금이 부과됩니다. 파트너는 Claude API, Amazon Bedrock, Vertex AI, Microsoft Foundry의 네 가지 채널을 통해 플랫폼에 액세스할 수 있습니다.

앤트로픽은 90일 이내에 첫 번째 연구 보고서를 발표하여 환경 복원 진행 상황과 경험 요약을 공개할 예정입니다.

또한 그들은 CISA(미국 사이버보안 및 인프라 보안국) 및 상무부와 소통하여 Mythos Preview의 공격 및 방어 잠재력과 정책적 함의에 대해 논의하고 있습니다.

인류과학 레드팀의 책임자인 로건 그레이엄은 다른 AI 연구소들이 빠르면 6개월, 늦으면 18개월 안에 유사한 공격 및 방어 능력을 갖춘 시스템을 출시할 것이라는 프레임 제시했습니다.

레드팀 기술 블로그 말미에 나오는 판단은 주목할 만합니다. 저희의 표현을 빌려 설명드리겠습니다.

그들은 미소스 프리뷰를 AI 네트워크 공격 및 방어 능력의 최대치로 보지 않습니다.

몇 달 전만 해도 LLM(법률 전문가)들은 비교적 간단한 버그만 악용할 수 있었습니다. 몇 달 전만 해도 그들은 가치 있는 취약점을 전혀 찾아내지 못했습니다.

이제 Mythos Preview는 27년 전의 제로데이 취약점을 독립적으로 발견하고, 브라우저 JIT 엔진에서 힙 스프레이 공격 체인을 구성하며, Linux 커널의 네 가지 독립적인 취약점을 연결하여 권한 상승을 달성할 수 있습니다.

가장 중요한 문장은 시스템 카드에서 나옵니다.

"이러한 능력은 코드 이해, 추론 및 자율성의 전반적인 향상에 따른 결과로 나타납니다. 인공지능이 문제를 해결하는 데 상당한 진전을 이루도록 했던 것과 동일한 일련의 개선 사항들이 인공지능이 문제를 악용하는 데에도 상당한 진전을 이루도록 했습니다."

특별한 훈련은 없었습니다. 순전히 일반적인 지능 향상의 부산물이었습니다.

사이버 범죄로 연간 약 5천억 달러의 손실을 입는 업계가 가장 큰 위협이 누군가가 수학 문제를 푸는 도중 우연히 발생하는 일이라는 사실을 발견했습니다.

참고 자료:
https://x.com/i/status/2041578392852517128
https://red.anthropic.com/2026/mythos-preview/
https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트