크립토 오프로드 (Let Winners Run)의 인사이트

04-17

Opus 4.7보다 Mythos가 궁금하다. Opus 4.7의 빠른 등장으로 커뮤니티가 시끌시끌하지만, Anthropic은 슬며시 Mythos의 압도적인 지표를 함께 공개했습니다. Opus 4.6에서 4.7로의 변화는 전반적으로 안정적인 개선이었습니다. SWE-bench Pro 기준 53.4%에서 64.3%로 약 11%p, Terminal-Bench는 65.4%에서 69.4%로 4%p 정도 올랐습니다. 한 세대 업그레이드답게 고르게 끌어올렸지만, 벤치마크마다 한 자릿수에서 열 자릿수 초반의 상승폭으로 "꾸준한 진보" 정도입니다. 반면 Opus 4.7에서 Mythos Preview로의 점프는 스케일이 다릅니다. SWE-bench Pro는 64.3%에서 77.8%로 13.5%p, Terminal-Bench는 69.4%에서 82.0%로 12.6%p 뛰었고, SWE-bench Verified는 이미 87.6%라는 고점에서 93.9%까지 올라갔습니다. 높은 점수대에서의 추가 상승은 난이도가 기하급수적으로 올라가는 영역이라, 단순 수치 이상의 의미가 있습니다. Humanity's Last Exam에서도 with tools 기준 54.7%에서 64.7%로 10%p 상승하며 표 내 전 모델 최고점을 기록했고, Cybersecurity 벤치마크는 4.6에서 4.7 사이에 오히려 소폭 하락했다가 Mythos에서 83.1%로 단숨에 10%p를 끌어올렸습니다. 아직 Mythos는 Preview 단계이고 Scaled tool use, Financial analysis, Multilingual Q&A 등 일부 벤치마크에서 측정값 자체가 없어 범용 모델로서의 완성도는 검증이 필요합니다. 그러나 측정된 영역만 놓고 보면, Opus 4.7이 4.6의 점진적 진화였다면 Mythos는 우리가 정말 희망하는 다음 세대 모델로 보입니다. Mythos 존버.. #AI #Opus4.7 #Mythos #Anthropic #Claude