앤트로픽은 오늘 클로드 오푸스 4.7을 출시하며, 이 제품이 자사 오푸스 모델 중 가장 뛰어난 성능을 자랑한다고 밝혔습니다. 저희가 직접 테스트해본 결과, 마케팅 문구와 일치하는 성능을 확인할 수 있었습니다.
"당사의 최신 모델인 Claude Opus 4.7이 정식 출시되었습니다."라고 회사는 공식 발표에서 밝혔습니다. "사용자들은 이전에는 면밀한 감독이 필요했던 가장 어려운 코딩 작업도 Opus 4.7에 안심하고 맡길 수 있다고 보고하고 있습니다."
이 모델은 Opus 4.6의 성능이 저하되었다는 사용자들의 불만이 몇 주 동안 이어진 직후에 출시되었습니다. GitHub , Reddit, X 등 여러 플랫폼의 개발자들은 자신들이 비용을 지불하고 사용해 온 모델의 성능이 조용히 저하되었다는 느낌을 " AI 축소 인플레이션 "이라고 표현했습니다 . 어제 보도했듯이 , Anthropic은 이미 4.7 버전을 준비하고 있었으며, 동시에 공개할 수 없는 훨씬 강력한 모델인 Claude Mythos를 개발 중이었습니다.
오늘 아침 발표 가 나오자 , 4.6 버전의 성능 저하에 대해 가장 강력하게 비판했던 Opus X 사용자들은 재빨리 비꼬는 반응을 보였습니다. 일부는 Opus 4.7이 마치 "초기 Opus 4.6" 같다고 농담했는데, 이는 사람들이 실제로 좋아했던 버전, 즉 Anthropic이 조용히 성능을 낮추기 전의 버전을 떠올리게 한다는 뜻입니다. 물론 Anthropic은 컴퓨팅 요구량을 관리하기 위해 모델 가중치를 낮춘 적이 없다고 부인했습니다 .
벤치마크 결과는 앤트로픽의 주장을 뒷받침합니다. 코딩 능력을 측정하는 벤치마크인 SWE-bench Multilingual에서 Opus 4.7은 80.5%를 기록하며 4.6의 77.8%보다 높은 점수를 받았습니다.
금융 및 법률 분야 전반에 걸쳐 경제적으로 가치 있는 지식 작업을 평가하는 제3자 평가기관인 GDPVal-AA에서 GPT-4.7은 1,753 Elo 점수를 획득하여 GPT-5.4의 1,674 Elo 점수보다 확실히 앞섰습니다.
OfficeQA Pro를 통한 문서 추론 성능에서 가장 뚜렷한 향상이 나타났습니다. 4.7 버전은 80.6%로 4.6 버전의 57.1%보다 크게 향상되었으며, GPT-5.4와 제미니(Gemini) 3.1 Pro는 각각 51.1%와 42.9%를 기록했습니다. 자판기 사업 운영과 같은 장기적인 맥락 및 추론 작업에서 모델의 성능을 측정하는 벤치마크인 Vending-Bench 2에서 4.7 버전은 10,937달러의 자산 잔고를 기록하며, 이는 모델이 장기간 자율 실행 동안 유용한 행동을 얼마나 잘 유지하는지를 보여주는 지표입니다.
사이버 보안은 앤트로픽이 의도적으로 기능을 제한한 유일한 영역입니다. Opus 4.7은 금지되거나 위험도가 높은 사이버 보안 요청을 탐지하고 블록 자동화된 보호 기능을 탑재하고 출시되었습니다. 앤트로픽은 교육 과정에서 4.7의 사이버 보안 기능을 "단계적으로 축소하는 실험을 진행했다"고 밝혔습니다.
보안 전문가들은 이러한 기능에 접근하기 위해 새로운 사이버 검증 프로그램 에 신청할 수 있습니다. 이는 회사가 향후 Mythos급 모델에 대규모로 적용해야 할 보안 조치를 시험해 보는 것입니다.
Opus 4.7은 현재 공개적으로 이용 가능한 가장 강력한 모델입니다. Anthropic의 진정한 최첨단 모델인 Mythos Preview는 검증된 보안 회사에만 제공됩니다. 지난주 영국 AI 보안 연구소의 평가에 따르면 , Mythos는 일반적으로 인간 레드팀이 20시간에 걸쳐 수행하는 32단계 기업 네트워크 공격 시뮬레이션인 "The Last Ones"를 최초로 완료한 AI입니다.
Opus 4.7은 그런 것은 아닙니다. 하지만 Anthropic이 더 과감한 제품을 출시하기 전에 실제 환경에서 안전장치가 얼마나 효과적인지 알아보기 위해 사용할 공개 모델입니다.
토큰 측면에서 Opus 4.7은 업데이트된 토크나이저를 사용하여 동일한 입력을 콘텐츠 유형에 따라 약 1.0배~1.35배 더 많은 토큰으로 매핑할 수 있습니다. 또한 이 모델은 특히 에이전트 워크플로의 후반 단계에서 더 높은 노력 수준에서 추론 능력을 향상시켰습니다. Anthropic은 4.6에서 업그레이드하려는 개발자를 위해 마이그레이션 가이드를 게시했습니다.
저희는 기존에 모든 주요 모델 릴리스를 평가할 때 사용했던 것과 동일한 게임 제작 프롬프트를 사용하여 자체 테스트를 진행했습니다. 그 결과, Opus 4.7은 역대 어떤 모델보다도 최고의 성능을 보여주었습니다. 시각적으로 가장 완성도 높은 게임, 진정으로 도전적인 난이도 곡선, 최고의 게임 메커니즘, 그리고 가장 창의적인 승패 화면을 자랑했습니다. 레벨은 절차적으로 생성되는 것처럼 보였고, 어떤 레벨도 불가능하게 느껴지지 않았습니다. 이는 다른 모델들이 반복적으로 실패했던 부분입니다.
여기서 게임을 테스트해 볼 수 있습니다.
완전히 실패한 것은 아니었습니다. Opus 4.6은 아무런 수정 없이 동일한 테스트를 통과했습니다. Opus 4.7은 한 차례의 버그 수정이 필요했습니다. 이는 운이 나빴을 수도 있습니다. 단 한 번의 반복은 표본 크기가 작기 때문입니다. 하지만 주목할 만한 점입니다. 우리를 더욱 놀라게 한 것은 모델이 그 수정 작업을 처리한 방식입니다. 모델은 별도의 지시 없이 스스로 추가적인 버그를 발견했습니다. Opus 4.6은 일반적으로 어디를 살펴봐야 할지 지시를 기다렸습니다.
샤오미 MiMo v2 Pro는 지금까지 가장 좋은 결과를 보여준 모델이었지만, Opus와는 달리 단 한 번의 수정만으로 만족스러운 결과물을 만들어냈습니다. 시각적으로 더 보기 좋고 사운드트랙이 있다는 점은 장점이었을지 모르지만, 버그 수정 한 번만으로 게임의 논리와 물리 엔진이 Opus에 비해 숏 하다는 것이 드러났습니다.
또한 샤오미의 모델은 앤트로픽이 청구하는 비용보다 훨씬 저렴한 가격으로 이러한 결과를 제공하는데, 이는 중요한 프로젝트를 진행할 때 고려해야 할 핵심 요소가 될 수 있습니다.
언뜻 보기에 사고 과정 표현 방식도 달라 보였습니다. 4.6 버전에서는 추론 과정을 별도의 상자에 넣어 최종 답변에 포함하지 않았던 반면, Opus 4.7에서는 추론 과정이 본문 출력에 그대로 나타났습니다. 추론 과정이 UI 추상화 뒤에 숨겨져 있지 않고 눈에 보이고 추적 가능했기 때문에 투명성을 중시하는 사용자에게는 장점입니다. Anthropic이 이러한 방식을 유지할지, 아니면 나중에 다시 숨겨진 블록 으로 축소할지는 아직 불분명합니다.
토큰 사용 방식은 이전에는 전혀 볼 수 없었던 것이었습니다. 테스트 기간 중 처음으로 단 한 번의 세션으로 할당된 토큰이 모두 소진되었습니다. 모델이 작동하는 모습을 지켜보니, 초안을 완전히 작성한 후 "버그 수정 및 개선을 통해 Emerge 재작성"이라는 레이블 아래 게임 전체를 처음부터 다시 작성하는 것처럼 보였고, 그 후 "버그 수정 및 개선을 통해 재작성된 Emerge 생성"이라는 레이블 아래 두 번째 작업을 진행했습니다.
즉, 진지하게 코딩을 하려면 요금제를 업그레이드하거나, API 토큰에 많은 비용을 지불하거나, Anthropic이 사용량 할당량을 재설정할 때까지 오랜 시간을 기다려야 합니다. 아니면 훨씬 저렴한 유사한 모델을 사용하는 방법도 있습니다.
Opus 4.6에서는 이런 현상이 없었습니다. 하지만 이는 Anthropic이 마이그레이션 가이드에서 경고하는 내용, 즉 특히 높은 노력 수준의 에이전트 작업에서 출력 토큰이 더 많이 생성된다는 점과 일치합니다.
Opus 4.7은 오늘부터 Claude.ai , Claude API, Amazon Bedrock, Google Cloud Vertex AI 및 Microsoft Foundry에서 이용할 수 있습니다. 가격은 4.6과 동일하게 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 25달러입니다. 개발자는 `claude-opus-4-7` 문자열을 통해 접근할 수 있습니다.




