Claude Opus 4.7이 출시되었습니다. 공개 버전 중 최첨단(SOTA) 모델이지만, GPT(Gross Performance, Platform, and Telecommunications) 시스템처럼 느껴집니다.

36氪

04-17

이 기사는 기계로 번역되었습니다

원문 표시

미소스를 속인 후, 안트로픽은 예상치 못하게 클로드 작품 4.7을 꺼냈습니다 .

많은 분들이 밤새도록 게임을 하느라 잠을 못 잤네요!

나는 침대에서 벌떡 일어나 인터넷 서핑을 하면서 Opus 4.7을 시험해 보기 시작했다. 그 과정에서 나쁜 소식과 좋은 소식을 모두 알게 되었다.

먼저 안 좋은 소식부터 전하자면, Opus 4.7은 왠지 옛 친구를 떠올리게 합니다.

그는 항상 "나를 안전하게 잡아내고 싶어" 한다.

많은 사용자들이 Opus 4.7이 업그레이드 버전임에도 불구하고 사용하면 할수록 GPT와 점점 더 비슷해지는 것 같다고 보고했습니다.

만약 그게 사실이라면, 좋은 일은 아니네요 (어쩔 수 없이 눈을 감는다.jpg).

나쁜 소식은 하나뿐이지만, 좋은 소식은 아주 많습니다.

이 제품은 에이전트 코딩, 에이전트 터미널 코딩, 확장 가능한 도구 사용, 시각적 추론 등 여러 측면에서 이전 버전보다 우수합니다. 하지만 에이전트 검색과 같은 일부 개별 기능은 저하되었습니다.

인류학은 또한 오만하게 다음과 같이 말했습니다.

Opus 4.7은 현재 저희가 공개적으로 제공하는 모델 중 가장 강력한 모델입니다. 하지만, 가장 강력한 모델은 아닙니다!

가장 강력한 존재는 여전히 미소스인 것 같으며, 그는 자신의 공격 방식을 숨기고 있다.

위 표를 보면, Mythos는 모든 테스트에서 약 10%에서 15% 정도 더 나은 성능을 보였습니다.

의심할 여지 없이, 미소스 프리뷰는 현재 앤스로픽에서 가장 강력한 카드이며, 최대의 성능을 자랑하지만, 오푸스 4.7보다 가격이 5배나 비쌉니다.

이에 비해 Opus 4.7은 완벽하게 검증된 보안 시스템, 합리적인 가격, 모든 플랫폼에서의 개방형 접근성을 갖춘 가장 강력한 양산형 버전과 유사합니다.

하지만… 아무리 현명한 사람이라도 실수를 할 수 있다.

뛰어난 성능에도 불구하고, Opus 4.7은 어제 차질을 빚었습니다.

클로드 오푸스 4.7 기습 공격: 4가지 핵심 업그레이드

전반적으로, 공개적으로 사용 가능한 가장 강력한 Opus 4.7은 네 가지 영역 모두에서 탁월한 성능을 보여줍니다.

고급 소프트웨어 엔지니어링: 신뢰할 수 있는 파트너

Opus 4.7의 가장 중요한 발전은 고급 소프트웨어 엔지니어링 분야에 있습니다.

이 데이터를 살펴보겠습니다.

SWE-bench 검증 테스트 점수는 78.2%에 도달했습니다.

SWE-bench Multimodal은 72.7%의 성공률을 달성했습니다.

Terminal-Bench 2.0은 68.8%의 점수를 획득했습니다.

Rakuten-SWE-Bench에서 해결된 프로덕션 작업 수는 Opus 4.6의 3배입니다.

GitHub의 93개 작업에 대한 코딩 벤치마크 결과도 13% 향상되었습니다.

Cursor의 CEO인 마이클 트루엘은 다음과 같은 중요한 평가를 내렸습니다.

CursorBench에서 Opus 4.7은 58%에서 70%로 크게 도약했습니다.

이러한 개선은 세 가지 주요 특징에 반영됩니다.

첫째, 지시사항을 엄격히 따르십시오.

Opus 4.7은 이전 모델처럼 사용자의 모호한 표현을 "유연하게 해석"하는 대신, 이를 문자 그대로 실행합니다.

즉, 이전에 "가능하면 이 코드를 최적화해 보세요"와 같은 제안을 작성했더라도 모델이 이를 선택적으로 무시할 수 있다는 의미입니다.

자, 만약 "이 코드를 최적화해"라고 말하면, 그 코드는 확실히 실행될 것입니다.

이러한 변화로 인해 사용자는 프롬프트 전략을 재조정해야 하며, "가능하면/이상적으로는/노력해 보세요"와 같은 완곡한 표현을 더 많이 사용하고, 엄격한 제한 사항은 더욱 명확하게 제시해야 합니다.

둘째, 출력하기 전에 자체 검증을 수행하십시오.

Opus 4.7은 마치 선임 엔지니어가 코드를 커밋하기 전에 테스트를 실행하는 것처럼 결과를 보고하기 전에 자체 출력을 검증하는 방법을 고안했습니다.

셋째, 그들은 복잡한 다중 파일 변경, 퍼지 디버깅 및 서비스 간 코드 검토에 능숙합니다.

Notion의 AI 책임자인 Sarah Sachs가 몇 가지 데이터를 공유했습니다.

복잡하고 여러 단계를 거치는 워크플로우 대면, Opus 4.7은 Opus 4.6 대비 14%의 성능 향상을 제공하며, 토큰 사용량은 감소하고 툴링 오류는 3분의 1 수준으로 줄었습니다. 또한, Opus 4.7은 당사의 암묵적 요구사항 테스트를 통과한 최초의 모델입니다.

시각적 기능: 해상도 3배, 자세한 내용은 참조하세요.

Opus 4.7은 시각적 기능에서도 상당한 개선을 보여줍니다.

공식 데이터에 따르면 가장 긴 변의 최대 해상도는 2576픽셀(약 3.75메가픽셀)로, Opus 4.6의 3배 이상이며, XBOW의 시력은 98.5%에 달합니다(Opus 4.6은 54.5%에 불과).

이 소프트웨어는 거의 모든 실제 응용 시나리오를 포괄하며, Figma 디자인 초안 전체와 1080p 터미널 스크린샷(작은 회색 텍스트 포함)을 직접 인식하고, 복잡한 기술 아키텍처 다이어그램과 재무 차트를 정확하게 분석하며, 컴퓨터 사용 시나리오에서 고밀도 UI 요소를 명확하게 읽어낼 수 있는 거의 완벽에 가까운 시각 처리 능력을 갖추고 있습니다.

즉, 이전에는 화학 구조 분석, 복잡한 기술 도표 인식, UI 요소의 픽셀 단위 정밀 위치 지정과 같이 특수 모델이 필요했던 작업들을 이제 Opus 4.7에서는 단일 모듈로 처리할 수 있습니다.

이 소식을 듣자마자 피그마의 주가는 즉시 폭락했고, 상황은 완전히 참담했습니다.

지시 준수 및 추론: 더욱 제어 가능하고 신뢰할 수 있음

Opus 4.7은 명령 준수 측면에서도 상당한 진전을 이루었습니다.

이제 사용자의 진정한 의도를 추측하려 하지 않고, 문자 그대로의 의미를 엄격하게 따릅니다.

이번 업그레이드의 핵심 장점은 엄격한 리터럴 실행에 있습니다. 사용자가 "TypeScript를 사용하지 마세요"라고 요청하면 모델은 TypeScript를 사용하지 않고, "JSON으로 출력하세요"라고 요청하면 출력에는 추가 접두사가 붙지 않습니다.

이러한 변화는 기존 사용자에게는 다소 적응이 필요할 수 있으며(기존의 메시지는 예상치 못한 결과를 초래하여 재보정이 필요할 수 있음), 정밀한 제어가 필요한 시나리오에는 매우 유용할 것입니다.

추론 측면에서, 100만 개의 토큰으로 구성된 긴 컨텍스트 시나리오에서 탁월한 성능을 보였으며, BFS 작업 점수 58.6%*(Opus 4.6의 41.2% 대비)를 달성하여 복잡한 추론에서 논리적 일관성이 크게 향상되었음을 입증했습니다.

에이전트 향상: 에이전트를 위해 개발된 버전

이전 버전인 Claude가 대화형 게임을 위해 설계되었다면, Opus 4.7은 에이전트형 게임을 위해 설계되었습니다.

이는 여러 측면에서 드러납니다.

전반적으로 Opus 4.7의 핵심 에이전트 기능이 포괄적으로 개선되었습니다.

여러 유명 AI 기업들이 실제 사용 효과에 대한 데이터를 발표했습니다. Notion의 경우 다단계 워크플로 성공률이 14% 증가했고, 도구 호출 오류율은 1/3로 감소했습니다. Vending-Bench 2 장기 비즈니스 시뮬레이션에서는 최종 잔액 10,937달러에 달했습니다(Opus 4.6은 8,018달러가 남았음). 이는 장기적인 의사 결정의 안정성을 높여줍니다. Genspark 시나리오에서는 무한 루프 방지, 일관성 유지, 오류 복구라는 세 가지 생산급 기능이 모두 활용되었습니다.

또한 파일 시스템 메모리를 탑재하여 여러 세션에 걸쳐 주요 정보를 안정적으로 기억하고, 새로운 작업에 필요한 반복적인 컨텍스트 입력량을 40% 줄여줍니다.

Cognition CEO 스콧 우의 설명은 훨씬 더 생생합니다.

Opus 4.7은 Devin에서 장시간 자율 작동을 새로운 차원으로 끌어올렸습니다. 몇 시간 동안 끊임없이 작동하며 포기하지 않고 문제를 해결함으로써 이전에는 안정적으로 실행할 수 없었던 심층 조사 작업을 가능하게 합니다.

동시에 Opus 4.7은 개발자에게 에이전트 관련 기능을 훌륭하게 제공합니다.

첫째, 새로운 추론 레벨인 xhigh가 추가되었으며, 이는 high와 max 사이의 기본 레벨 역할을 합니다.

이를 통해 개발자는 더욱 세밀한 제어 권한을 확보하여 추론 깊이와 지연 시간, 지능과 토큰 비용 간의 균형을 찾고 대부분의 코딩/에이전트 작업에 적응할 수 있습니다.

둘째, 고정된 시간 예산으로 장시간 생각하는 방식을 대체하는 새로운 적응형 사고 모드가 추가되었습니다. 이 모델은 사고의 깊이를 자율적으로 판단하고, 간단한 질문에는 신속하게 답변하며, 복잡한 단계에서는 핵심 작업에 집중합니다.

셋째, 작업 예산(공개 베타)을 통해 개발자는 토큰 소비를 관리하고 시간이 오래 걸리는 작업에 대한 리소스 할당을 최적화할 수 있습니다.

넷째, Claude Code는 /ultrareview 명령어를 추가했는데, 이 명령어를 사용하면 별도의 검토 세션을 만들고 사소한 오류와 디자인 문제를 태그 수 있습니다.

저는 초기 보호 및 메모리 강화 기능을 갖춘 신뢰할 수 있는 모델을 만들고 싶습니다.

앤스로픽 관계자들은 오푸스 4.7의 사이버 보안 기능이 미소스 프리뷰보다 떨어진다고 밝혔습니다.

하지만 이는 그들이 의도적으로 한 일이었다.

이러한 "자체적인 제한"의 이면에는 인공지능 안전에 대한 앤트로픽의 일관된 노력이 자리 잡고 있습니다.

2021년 설립 이후, 이 회사는 4년 동안 신중하게 평판을 쌓아왔으며, "OpenAI와 같은 경쟁사보다 안전하고 책임감 있는 AI 배포에 더 집중한다"는 이미지를 구축하려고 노력해 왔습니다.

Mythos Preview가 강력한 AI 모델의 보안 리스크 에 대한 업계의 뜨거운 논쟁을 불러일으킨 후, Opus 4.7은 이러한 위험을 완화하기 위한 완충 장치로 설계되었습니다.

구체적으로, Anthropic은 훈련 중에 Opus 4.7의 네트워크 기능을 차등적으로 줄이는 실험을 진행하여, 모델이 사이버 보안 관련 작업 대면 때 더욱 신중한 태도를 보이도록 했습니다.

동시에 공식 팀은 리스크 가 높은 사이버 보안 요청을 자동으로 탐지하고 차단하는 보호 조치를 발표했습니다. 이러한 보호 조치는 금지되거나 위험도가 높은 사이버 보안 목적을 나타내는 요청을 자동으로 식별하고 차단할 수 있습니다.

사이버 보안이 필요한 전문가들을 위해 앤트로픽은 사이버 검증 프로그램을 출시했습니다.

취약점 연구, 침투 테스트, 레드팀 훈련과 같은 합법적인 목적으로 Opus 4.7을 사용하려는 보안 전문가는 공식 채널을 통해 신청할 수 있습니다.

공식 웹사이트는 팟캐스트 말미에서 개발자들이 Opus 4.6에서 4.7 버전으로 마이그레이션하려는 경우 특별히 주의해야 할 몇 가지 사항이 있다고 언급했습니다.

먼저, 토크나이저가 업데이트되었습니다.

Opus 4.7은 새로운 토크나이저를 사용하여 텍스트 처리 효율성을 향상시켰지만, 동일한 입력이 약 1.0~1.35배 더 많은 토큰으로 매핑될 수 있습니다.

즉, 동일한 프롬프트가 더 많은 토큰을 소모할 수 있으므로 비용 예산에 여유분을 확보해야 합니다.

둘째로, 노력 수준이 높을수록 더 많은 출력 토큰이 생성됩니다.

Opus 4.7은 특히 에이전트 시나리오에서 여러 턴으로 진행되는 대화의 후반 단계에서 고수준 및 초고수준 사고의 깊이를 크게 향상시킵니다.

이러한 "더욱 사려 깊고 신뢰할 수 있는" 행동 패턴은 출력 품질을 향상시키지만, 세션 시간이 길어질수록 토큰 소모량이 증가한다는 것을 의미하기도 합니다.

Opus 4.6과 가격이 동일한 이 제품에 대해 알아야 할 몇 가지 사항이 있습니다.

Opus 4.7이 이제 모든 플랫폼에서 이용 가능합니다.

클로드의 공식 채널 외에도, 새로운 모델은 모든 Claude Pro/Max/Team/Enterprise 제품 및 공식 API는 물론 Microsoft Foundry, Google Cloud Vertex AI, Amazon Bedrock 등 세 가지 주요 클라우드 플랫폼에서도 사용할 수 있습니다.

가격 책정 방식은 Opus 4.6과 동일하게 입력 시 토큰 백만 개당 5달러, 출력 시 토큰 백만 개당 25달러입니다.

앞서 언급했듯이 Opus 4.7에서는 프롬프트 재구성 및 토큰 사용 전략 조정이 필요하지만, Anthropic은 내부 테스트에서 긍정적인 반응을 보였습니다.

내부 상담원 코딩 평가에서 토큰 사용 효율성은 모든 노력 수준에서 Opus 4.6에 비해 향상되었습니다.

즉, 호출당 토큰 수는 증가할 수 있지만, 모델의 오류 발생 횟수가 줄어들기 때문에 작업을 완료하는 데 필요한 총 토큰 수는 오히려 줄어드는 경우가 많습니다.

시간당 급여는 더 높지만 작업을 더 빨리 완료하고 재작업이 적어 궁극적으로 총비용이 더 낮아질 수 있는 숙련된 엔지니어를 고용하는 것과 같습니다.

또한, Opus 4.7은 특히 요원 시나리오에서 후반 라운드에 더욱 신중한 태도를 보일 것입니다.

이는 더욱 안정적인 출력을 의미하지만, 토큰 소모량도 증가한다는 것을 의미합니다.

개발자는 노력 매개변수를 조정하거나, 작업 예산을 설정하거나, 프롬프트를 최적화하여 성능과 비용의 균형을 맞출 수 있습니다.

Anthropic은 Opus 4.7의 코딩 및 에이전트 사용 사례 테스트 시 높은 수준 또는 매우 높은 수준의 노력으로 시작하고 필요에 따라 점진적으로 조정할 것을 권장합니다.

어쨌든~

일반적으로 실제 사용 비용은 사용 방식에 따라 달라지지만, 대부분의 경우 향상된 기능으로 인한 효율성 증대가 토큰 소비 증가분을 상쇄할 것입니다.

클로드의 도움을 받아 복잡한 개발 작업을 진행하는 팀에게는 이번 계약이 상당히 유리할 수 있습니다.

참고 링크:

[1]https://www.anthropic.com/news/claude-opus-4-7

[2]https://www.cnbc.com/2026/04/16/anthropic-claude-opus-4-7-model-mythos.html

[3]https://x.com/i/trending/2044560325509316766

이 글은 위챗 공식 계정 "퀀텀 비트" 의 Heng Yu 작성 글이며, 36Kr의 허가를 받아 게재되었습니다.

섹터:

거버넌스

레이어2

리니아 생태계

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트