방금 전 실리콘밸리 AI 업계에서 "화성과 지구의 충돌"과 같은 일이 벌어졌습니다.
마치 사전에 약속이라도 한 듯, OpenAI와 Anthropic은 Claude Opus 4.6과 GPT-5.3-Codex라는 주요 업데이트를 동시에 출시했습니다.
어젯밤 전까지만 해도 우리는 업무에 도움이 되는 좋은 질문지를 작성하는 방법에 대해 논의했지만, 오늘 이후로는 AI 직원을 상사처럼 관리하는 방법을 배워야 할지도 모릅니다.
인공지능이 또 다른 인공지능을 만들어내고, 그 과정에서 우연히 당신의 컴퓨터를 장악하게 됩니다.
바로 어제, 샘 알트만은 Codex의 X 플랫폼에서 "활성 사용자 100만 명"이라는 이정표를 달성했습니다. 그리고 불과 하루 만에 OpenAI는 또 다른 놀라운 소식을 발표했습니다.
GPT-5.3-코덱스.
기술 문서에는 매우 중요한 내용이 담겨 있습니다. "이 모델은 저희 자체 개발 과정에서 핵심적인 역할을 한 최초의 모델입니다."
쉽게 말해, 인공지능이 스스로 코드를 작성하고, 버그를 찾아내며, 심지어 차세대 인공지능을 훈련시키기 시작했다는 뜻입니다. 이러한 자기 진화 능력은 여러 벤치마크 점수에 직접적으로 반영됩니다.
인간의 컴퓨터 작동 방식을 시뮬레이션하는 OSWorld-Verified 벤치마크를 기억하시나요? 이전 모델은 38.2%의 정확도를 기록하며 간신히 통과했지만, 이번 GPT-5.3-Codex는 64.7%라는 놀라운 정확도를 보여주었습니다.
평균적인 인간의 숙련도 수준이 72%에 불과하다는 점을 주목할 필요가 있습니다. 이는 인공지능이 마우스 사용, 화면 전환, 소프트웨어 조작 등에서 인간만큼 능숙해지기까지는 아직 갈 길이 멀다는 것을 의미합니다.
터미널벤치 2.0(명령줄 작업 벤치마크)에서 77.3%라는 높은 점수를 기록하며 GPT-5.2(62.2%)를 크게 앞섰습니다.
4가지 프로그래밍 언어를 포괄하는 SWE-Bench Pro 벤치마크는 오염 방지 기능뿐만 아니라 실제 엔지니어링의 고난도 과제까지 해결하는데, GPT-5.3-Codex는 이전 모델보다 적은 토큰을 사용하여 최첨단 성능을 입증했습니다.
OpenAI는 자체적으로 구축할 수 있는 능력까지 입증했습니다.
며칠 만에 여러 맵이 포함된 레이싱 게임 v2를 처음부터 개발했고, 산소 시스템을 관리하는 심해 다이빙 게임까지 만들어냈습니다.
저에게 가장 인상 깊었던 점은 GPT-5.3-Codex가 모호한 의도를 이해하는 능력이었습니다.
랜딩 페이지를 구축할 때, 연간 플랜을 할인된 월간 가격으로 자동 변환하고, 사용자 리뷰 캐러셀까지 세심하게 추가해 줍니다 . 이 모든 작업은 사용자가 별도의 지시를 내릴 필요 없이 자동으로 진행됩니다.
OpenAI의 야심은 그 모습에서 고스란히 드러납니다. 마이크로소프트는 한때 AI가 인간의 부조종사가 될 것이라고 말했지만, 이제 AI는 운전대를 잡고 심지어 자동차까지 스스로 수리할 수 있는 운전자가 되기를 원합니다.
아, 그리고 흥미로운 사실이 하나 더 있어요.
이전에는 OpenAI가 NVIDIA의 AI 칩에 대해 우려를 표명했다는 소문이 널리 퍼졌지만, 이번에는 공식 블로그에서 GPT-5.3-Codex의 설계, 학습 및 배포가 모두 NVIDIA GB200 NVL72 시스템에서 완료되었다고 명확히 강조했습니다.
황런쉰은 이 고음질 "엔비디아 감사합니다"라는 말로 체면을 세웠습니다.
"금붕어 추억"에 작별을 고하며, 클로드는 극적인 복귀를 이뤄냈다.
GPT-5.3-Codex 출시와 거의 같은 시기에 Anthropic은 자체적인 중국 설날 선물 패키지도 선보였습니다.
안타깝게도 많은 기대를 모았던 "중형" 클로드 소네트 모델은 업데이트되지 않았지만, 다행히도 앤트로픽은 "초대형" 버전인 클로드 오푸스 4.6을 직접 선보였습니다.
오늘 출시된 앤트로픽의 클로드 오푸스 4.6은 공격적인 행동 방식을 취하는 오픈AI와 달리 비판적 사고와 신뢰성에 중점을 두고 있습니다.
많은 기업 사용자들이 '컨텍스트 오류'라는 문제점을 겪고 있습니다. AI는 20만 개의 컨텍스트를 지원한다고 하지만, 데이터가 많아지면 AI가 시작 부분에만 집중하고 끝 부분에는 신경 쓰지 않는다는 것입니다.
이번에 Claude Opus 4.6이 제시한 데이터는 그야말로 "판도를 바꾸는" 자료입니다.
MRCR v2(건초더미 속 긴 텍스트 바늘 찾기) 테스트에서 Claude Opus 4.6은 76%의 재현율을 달성했습니다.
반면, 이전 세대인 소넷 4.5는 18.5%라는 저조한 정확도를 보였습니다. 어떻게 보면 이는 사실상 사용 불가능한 수준에서 매우 신뢰할 수 있는 수준으로 질적인 도약을 이룬 것이라고 할 수 있습니다.
이는 Claude Opus 4.6 버전에서 처음으로 실질적으로 사용 가능한 1M 컨텍스트 창이 도입되었기 때문입니다.
이게 무슨 뜻일까요? 수백 페이지에 달하는 재무 보고서나 수십만 단어에 달하는 코드를 기계에 직접 입력해도, 기계는 그 모든 자료를 읽어낼 뿐만 아니라 342페이지 각주에 있는 숫자에 문제가 있다는 사실까지 정확하게 알려줄 수 있다는 뜻입니다.
또한, 이제 최대 128k의 출력 토큰을 지원합니다. 이는 무엇을 의미할까요? 단어 수 제한 때문에 내용을 잘라낼 필요 없이 긴 연구 보고서나 복잡한 코드베이스를 한 번에 작성할 수 있다는 뜻입니다.
Opus 4.6은 뛰어난 기억력 외에도 지능 면에서도 압도적인 승리를 거두었습니다.
GDPval-AA(금융 및 법률과 같은 경제적 가치가 높은 업무에 대한 평가)에서 Opus 4.6의 Elo 점수는 업계 2위(OpenAI의 GPT-5.2)보다 무려 144점 높았으며, 이전 버전보다 무려 190점이나 높았습니다.
복잡하고 다학제적인 추론 테스트인 '인류의 마지막 시험'에서 이 모델은 모든 최첨단 모델보다 뛰어난 성능을 보여줍니다.
또한 인터넷에서 "찾기 어려운 정보"를 찾는 능력을 테스트하는 BrowseComp에서도 최고의 성능을 보였습니다.
이 데이터를 통해 Anthropic은 다음과 같은 신호를 보내는 것으로 보입니다. 코드를 작성해야 한다면 바로 옆 OpenAI로 가십시오. 복잡한 비즈니스 의사 결정, 법률 문서 또는 재무 분석을 처리해야 한다면 Claude가 유일한 선택입니다.
직장인들의 눈길을 사로잡은 것은 바로 생산성 향상 기능이었다.
한편, Anthropic은 이제 Claude를 Excel 및 PowerPoint에 직접 통합했습니다. Excel 데이터에서 레이아웃 스타일은 물론 글꼴과 템플릿 정렬까지 유지하면서 PowerPoint 프레젠테이션을 직접 생성할 수 있습니다. Claude Cowork 협업 환경에서는 자율적인 멀티태스킹까지 수행할 수 있습니다.
반면, 앤스로픽은 클로드 코드에 실험적인 에이전트 팀 기능을 도입하여 일반 개발자들도 "수천 명의 병력을 지휘하는" 느낌을 경험할 수 있도록 했습니다.
역할 분담: 클로드 세션(Claude Session)을 팀 리더로 지정할 수 있습니다. 팀 리더는 직접적인 작업은 하지 않고, 작업 분할, 작업 지시 할당, 코드 병합 등을 전담합니다. 나머지 세션들은 팀원(Teammate)으로서 각자 맡은 작업을 수행합니다.
독립적인 작업: 각 팀원은 독립적인 컨텍스트 창을 가지며(토큰 폭발에 대해 걱정할 필요 없음), 기술적 세부 사항을 논의하기 위해 팀장 몰래 서로 메시지를 주고받을 수도 있습니다(에이전트 간 메시징). 최종적으로 팀장에게 결과만 보고하면 됩니다.
병렬 경마: 이게 무슨 소용이 있을까요? 해결하기 어려운 버그를 찾는다고 가정해 보세요. 마치 "경마"처럼 5개의 에이전트를 생성하여 5개의 서로 다른 가설을 검증하고, 동시에 지뢰를 제거하는 작업을 진행할 수 있습니다. 또는 코드 리뷰 중에 한 팀원은 "보안 전문가" 역할을 맡아 취약점을 확인하고, 다른 팀원은 "아키텍트" 역할을 맡아 성능을 점검하도록 할 수 있는데, 이 과정에서 서로 간섭하지 않고 작업을 진행할 수 있습니다.
Opus 4.6의 한계를 보여주기 위해 인류학 연구원 니콜라스 칼리니는 에이전트 팀이라는 기상천외한 실험을 진행했습니다.
그는 직접 코드를 작성하는 대신 2만 달러 상당의 API 크레딧을 제공하여 Claude Opus 4.6 사용자 16명이 "완전히 자동화된 소프트웨어 개발 팀"을 구성할 수 있도록 했습니다.
이 인공지능 그룹은 단 2주 만에 2,000회 이상의 프로그래밍 작업을 자율적으로 수행했으며, 10만 줄에 달하는 C 언어 컴파일러(Rust 기반)를 처음부터 직접 작성했습니다.
이 AI 기반 컴파일러는 리눅스 6.9 커널(x86, ARM, RISC-V 아키텍처 포함)을 성공적으로 컴파일했을 뿐만 아니라 둠 게임까지 실행했습니다.
완벽하지는 않지만(예를 들어 생성된 코드가 GCC만큼 효율적이지 않음), 이 사례는 우리가 더 이상 AI와 함께 프로그래밍하는 것이 아니라 AI 팀이 자율적으로 협업하고, 디버깅하고, 프로젝트를 발전시키는 것을 지켜보고 있음을 보여줍니다.
또한, 난이도에 따라 "생각하는 시간"을 스스로 결정할 수 있는 적응형 사고 능력을 갖추고 있습니다. 새롭게 추가된 "지능형 강도" 조절 기능을 통해 낮음부터 최대까지 네 단계로 강도를 조절할 수 있습니다.
가격 측면에서 앤스로픽은 이번에 상당히 관대한 정책을 펼쳐, 백만 토큰당 5달러/25달러의 기본 가격을 유지했습니다. 이는 기업 시장에서 오픈AI와 정면으로 경쟁하려는 의지를 보여주는 듯합니다.
한 명은 혁신적인 천재이고, 다른 한 명은 믿음직한 노련한 인물이다.
유명 AI 리뷰어인 댄 시퍼가 즉시 블라인드 테스트(바이브 체크)를 진행했고, 그의 평가는 놀라울 정도로 정확했습니다.
클로드 오푸스 4.6은 "높은 잠재력, 높은 변동성"이 특징입니다.
마치 뛰어난 재능을 가졌지만 때로는 괴짜 같은 천재 같아요. 테스트 결과, iOS 팀이 두 달 동안 해결하지 못했던 기능 문제를 직접적으로 해결했고, LFG 벤치마크에서 9.25/10이라는 높은 점수를 받았습니다.
하지만 때로는 지나치게 자신만만해서 아무렇지도 않은 소리를 늘어놓기도 합니다. 획기적인 영감이 필요하다면, 이런 점을 고려해 보세요.
GPT-5.3-Codex는 "높은 신뢰성, 낮은 분산"이 특징입니다.
마치 노련하고 믿음직스러운 엔지니어처럼 절대 실망시키지 않습니다. 추론 속도가 25% 향상되었고, 기본적인 오류는 거의 없으며, 안정성 또한 뛰어납니다.
창의적인 작업에서는 다소 뒤처지지만(LFG 점수 7.5/10), 일상적인 코딩 및 유지 관리 작업에서는 가장 효율적인 작업용 컴퓨터입니다.
물론 어떤 모델을 사용할지 선택하는 것보다 더 중요한 것은 ChatGPT가 버그를 수정하고 터미널을 자율적으로 작동시킬 수 있고, Claude가 대량의 문서를 한 번에 처리하고 세부 정보를 정확하게 찾아낼 수 있게 되면 프롬프트 엔지니어링의 중요성은 감소하는 반면 에이전트 관리 기능이 부상하기 시작한다는 점입니다.
이제 더 이상 초등학생을 가르치듯 지시사항을 세세하게 나눌 필요가 없습니다. 대신, 목표를 설정하고, 결과를 검토하고, 관리자 역할을 하는 AI 직원에게 어떤 작업을 언제 어떻게 할당할지 결정하는 방법을 배워야 합니다.
이것이 2026년의 새로운 업무 환경입니다. 당신의 팀에는 실리콘 기반의 천재들이 침투했고, 당신은 유일한 탄소 기반의 상사입니다.
이 글은 위챗 공식 계정 "APPSO" 에서 Discover Tomorrow's Products가 작성하고 36Kr의 허가를 받아 게시한 글입니다.




