[서론] 대형 모델은 얼마나 오랫동안 코드를 연속적으로 작성할 수 있을까요? 한 시간? 하루? 아니면 대부분의 AI 프로그래밍 도구처럼 작업이 완료되면 대화가 종료되는 걸까요? Cursor의 CEO인 마이클 트루엘은 극한의 스트레스 테스트를 진행하기로 했습니다!
마이클 트루엘은 Cursor에서 GPT-5.2를 일주일 동안 연속적으로 실행했습니다.
한 시간도 아니고, 하루도 아니고, 잠도 안 자고 쉬지도 않고 168시간 동안 쉬지 않고 코드를 작성했습니다.
결과?
3백만 줄의 코드. 수천 개의 파일.
AI가 완전히 새로운 브라우저를 처음부터 개발했습니다.
게다가 크롬과 같은 브라우저입니다.
HTML 파싱, CSS 레이아웃, 텍스트 렌더링, 그리고 자체 개발한 자바스크립트 가상 머신까지, 이 모든 것을 인공지능이 직접 작성했습니다.
마이클 트루엘은 아무렇지 않게 트위터에 이렇게 썼습니다. "기본적으로 잘 작동합니다! 간단한 웹 페이지는 빠르고 정확하게 렌더링됩니다."
모델은 얼마나 오랫동안 실행될 수 있나요?
Github Copilot과 같은 초기 IDE를 비롯한 기존의 AI 프로그래밍 도구들은 모두 질문과 답변 모델을 따릅니다.
대화 길이, 맥락, 과제의 복잡성이 제한되어 있습니다.
이후 소위 에이전트 프로그래밍이 등장했는데, Claude Code, Cursor Agent, Windsurf와 같은 도구를 통해 AI는 여러 단계를 거치는 작업을 자율적으로 수행하고, 파일을 읽고, 명령을 실행하고, 오류를 수정할 수 있게 되었습니다.
이는 이미 상당한 개선이지만, 대부분의 경우 작업 시간은 여전히 몇 분에서 많아야 몇 시간 정도입니다.
AI가 기능을 완료하면 사람이 검토하고, 그 후 다음 작업으로 넘어갑니다.
하지만 지금까지 누구도 모델을 일주일 동안 연속으로 실행해 본 적은 없습니다.
GPT-5.2 이전까지.
Cursor 팀은 GPT-5.2를 간헐적으로 가 아니라 일주일 내내 지속적으로 실행했습니다.
이번 주에는 다음과 같은 일이 있었습니다.
- 그는 3백만 줄이 넘는 코드를 작성했습니다.
- 수천 개의 파일이 생성되었습니다.
- 수조 개의 토큰이 거래되었습니다.
- 완전한 브라우저 렌더링 엔진을 처음부터 새로 개발했습니다.
모델은 실제로 얼마나 오랫동안 실행될 수 있나요?
답은 이론적으로는 무한할 수 있다는 것 입니다.
인프라가 안정적이고 작업이 충분히 명확하기만 하면, AI는 잠도 자지 않고, 음식이나 음료도 섭취하지 않고, 24시간 내내, 연중무휴로 지속적으로 작동할 수 있습니다.
호주 양치기의 "사이버 암시장"과 같은 것이죠.
하지만 실제로는 모델별 "내구성"이 크게 다릅니다.
컨텍스트 창이 첫 번째 관문입니다.
GPT-3.5 초기 버전은 4K 토큰 컨텍스트만 지원했기 때문에 대화가 너무 길어지면 기록이 삭제되는 문제가 있었습니다.
Claude 3는 20만 개의 컨텍스트를 도입했고, GPT-4 Turbo는 12만 8천 개를 지원하며, Gemini 1.5 Pro는 심지어 100만 개의 토큰을 지원한다고 주장했습니다.
하지만 컨텍스트 지속 시간은 단지 이론적인 값일 뿐이며, 실제 테스트는 모델이 긴 작업에서 일관성, 집중력 및 실행력을 유지할 수 있는지 여부입니다.
Cursor 팀은 실험에서 중요한 차이점을 발견했습니다.
Cursor 공식 블로그 게시물에서 팀은 실험에서 발견한 주요 차이점을 설명했습니다.
- GPT-5.2는 장시간 자율적으로 작동할 수 있고, 지시를 정확하게 따르며, 목표에서 벗어나지 않고 집중력을 유지할 수 있습니다.
- Claude Opus 4.5는 가능한 한 빨리 종료되는 경향이 있으며, 지름길을 택하고 자주 사용자에게 제어권을 되돌려줍니다.
- GPT-5.1-Codex는 코딩 학습을 위해 설계되었지만, 계획 수립 기능이 GPT-5.2만큼 뛰어나지 않아 중단이 발생하기 쉽습니다.
좀 더 직설적으로 말하자면, 오푸스는 마치 한동안 일하다가 "이거 괜찮나요? 지금 제출해도 될까요?"라고 묻고 싶어하는 조급한 인턴과 같습니다 .
GPT-5.2는 노련한 선임 엔지니어와 같습니다 . 작업이 명확하게 설명되면, 곧바로 작업에 몰두하여 해결책을 찾아냅니다.
이것이 바로 Cursor가 GPT-5.2를 장시간 실행되는 작업을 처리하는 데 있어 최첨단 모델이라고 공식적으로 주장하는 이유입니다.
브라우저뿐만이 아닙니다.
Cursor는 현재 운영 중인 다른 실험적인 프로젝트들도 공개했는데, 여기에는 Windows 7 에뮬레이터인 JavaLSP와 Excel 클론이 포함됩니다.
데이터는 엄청납니다. 인공지능이 직접 55만 줄, 120만 줄, 그리고 160만 줄의 코드를 작성했습니다. (덧붙이자면, 엑셀이 윈도우보다 코드가 더 많다는 건 다소 과장된 표현입니다.)
다중 에이전트 시스템 협업
한 모델이 일주일에 3백만 줄의 코드를 작성하는데, 이는 사람의 개입 없이 끊임없이 코드를 작성하는 것입니다!
이 모델은 분명히 "독자적으로" 작동하는 모델이 아닙니다. 그렇다면 어떻게 그렇게 할 수 있었을까요?
Cursor 팀은 그들의 비밀 병기인 다중 에이전트 시스템을 공개했습니다.
처음에 그들은 모든 에이전트가 파일을 공유하여 상태를 동기화함으로써 동등하게 협력하도록 시도했습니다. 결과는 다음과 같았습니다.
에이전트가 잠금을 너무 오래 유지하거나 해제하는 것을 잊어버릴 수 있습니다. 이 경우 20명의 에이전트 속도가 2~3명의 에이전트와 동등한 처리량으로 떨어집니다.
이는 인간 팀에서 흔히 발생하는 문제와 매우 유사합니다. 즉, 과도한 회의, 높은 의사소통 비용, 그리고 불분명한 책임 범위 등이 그것입니다.
가장 효과적인 해결책 은 계층형 아키텍처 입니다.
- 기획자 : 코드베이스를 지속적으로 탐색하고, 작업을 생성하고, 고수준의 의사 결정을 내립니다.
- 작업자 : 특정 작업을 완료하는 데 집중하며 전체적인 그림에는 관심이 없습니다. 작업을 제출한 후에는 다음 작업으로 넘어갑니다.
- 검토(에이전트) : 각 반복 작업이 만족스러운지 판단하고 다음 단계로 진행할지 여부를 결정합니다.
이는 인간이 운영하는 소프트웨어 회사의 조직 구조와 거의 유사합니다. 제품 관리자/설계자는 계획을 담당하고, 프로그래머는 실행을 담당하며, QA 담당자는 검토를 담당합니다.
하지만 차이점은 이 경우에는 수백 또는 수천 명의 요원이 동시에 작업한다는 것 입니다.
Cursor 팀은 수백 명의 에이전트가 거의 코드 충돌 없이 몇 주 동안 동일한 코드베이스에서 협업할 수 있도록 지원했습니다.
이는 인공지능이 인간 팀이 수년에 걸쳐 개발하는 협업 능력을 습득했음을 의미합니다.
브라우저에는 생각보다 훨씬 더 깊은 "해자"가 있습니다.
"웹 페이지를 표시하는 소프트웨어일 뿐이야"라는 말을 들으면, 브라우저 커널 개발에 참여했던 엔지니어라면 누구나 씁쓸한 미소를 지을 겁니다.
컴퓨터 과학 분야에서 브라우저 커널을 직접 작성하는 난이도는 운영 체제를 직접 작성하는 난이도 다음으로 높습니다.
3백만 줄의 코드가 무엇을 의미하는지 감을 잡으시려면 구글의 크로뮴(크롬의 오픈소스 모체)을 살펴보겠습니다.
인류 소프트웨어 공학의 정점 중 하나인 크로뮴의 코드베이스는 이미 오래전에 3500만 줄을 넘어섰습니다.
단순한 소프트웨어가 아닙니다. 본질적으로 "응용 프로그램으로 위장한 운영 체제"입니다.
GPT-5.2의 정확한 과제는 무엇인가요?
첫째, CSS의 "카오스 이론"이 있습니다.
웹 페이지 레이아웃은 단순히 블록을 쌓아 올리는 문제가 아닙니다.
CSS 표준은 역사적인 특이사항, 계단식 규칙, 복잡한 상속 논리로 가득 차 있습니다.
예전에 파이어폭스 브라우저 엔지니어였던 한 사람이 이런 비유를 들었습니다. 완벽한 CSS 엔진을 구현하는 것은 마치 물리 법칙이 마음대로 변하는 우주를 시뮬레이션하는 것과 같다고요. 부모 요소의 속성을 변경하면 수천 개의 자식 요소 레이아웃이 순식간에 무너질 수도 있다는 거죠.
둘째로, "가상 머신 내의 가상 머신"이 있습니다.
이번에는 AI가 인터페이스뿐만 아니라 자바스크립트 가상 머신까지 작성했습니다.
최신 웹 페이지는 메모리 관리, 가비지 컬렉션(GC) 및 보안 샌드박스가 필요한 JavaScript 코드를 실행합니다.
제대로 처리하지 않으면 웹페이지가 컴퓨터의 모든 메모리를 소모하거나, 심지어 해커가 브라우저를 우회하여 컴퓨터를 장악할 수도 있습니다.
최악은 하필이면 Rust를 선택했다는 점이다.
Rust 언어는 "타협 없는 안전성"으로 유명하며, 컴파일러는 극도로 신경질적인 시험관과 같습니다.
업무 로직을 작성할 때, 엔지니어들은 종종 시간의 절반을 컴파일러와 "논쟁"하며, 빌림 검사 및 생명주기 문제를 처리하는 데 소비합니다.
AI는 업무 이해해야 할 뿐만 아니라, "심사관"의 비판을 받을 여지를 남기지 않고 수백만 줄의 코드를 처리할 수 있어야 합니다.
7일 안에 이러한 어려운 과제들을 해결하고 서로 연동시켜 작동하게 만드는 것은 더 이상 단순히 "빠르게 작성하는 것"에 그치는 것이 아니라, 시스템이 최고 수준의 아키텍처 제어 능력을 갖추기 시작했다는 것을 의미합니다.
인공지능이 "외로움을 견딜 수 있을 때"
하지만 이 뉴스 기사의 진짜 충격적인 부분은 브라우저 자체가 아니라 "중단 없는" 메시지 입니다.
이는 인공지능 발전의 중대한 전환점입니다.
이전에는 우리가 익숙했던 AI 프로그래밍 도구(예: 초기 Copilot)는 다음과 같았습니다. 함수 헤더를 작성하면 다섯 줄의 코드를 완성하고, 명령을 내리면 스크립트를 생성하는 방식이었습니다.
그들의 기억은 단편적이고, 집중력은 짧습니다.
"이 모듈 리팩토링"하는 것처럼 작업이 조금 더 복잡해지면, 사람들은 종종 한 가지 측면에만 집중하고 다른 측면을 소홀히 하여, 한 부분을 변경했다가 다른 부분을 망가뜨리는 경우가 발생하고, 결국 누군가가 그 혼란을 수습해야 하는 상황에 놓이게 됩니다.
하지만 이번에는 다릅니다. 이것은 "장기 임무"의 승리입니다.
이 3백만 줄의 코드는 수천 개의 파일에 흩어져 있습니다.
인공지능이 3백만 번째 코드를 작성할 때에도 첫 번째 코드 줄에 설정된 아키텍처 규칙을 여전히 "기억"해야 합니다.
렌더링 엔진과 자바스크립트 가상 머신이 충돌할 경우, 버그의 원인을 찾기 위해 수만 줄에 달하는 코드까지 추적할 수 있어야 합니다.
그 168시간 동안 GPT-5.2에는 분명 몇 가지 버그가 있었을 겁니다.
하지만 오류를 보고하고 사람의 입력을 기다리기 위해 멈추는 대신, 오류 로그를 읽고 디버깅하고 재구성한 다음 계속 진행합니다.
이러한 자율적인 "쓰기-실행-복구" 폐쇄 루프는 한때 우리 인간 엔지니어들이 가장 자랑스러워했던 방어벽이었습니다.
이제 해자는 메워졌습니다.
우리는 인공지능이 '채팅 도우미'에서 '디지털 노동력'으로 질적인 도약을 하는 것을 목격하고 있습니다.
이전에는 AI에게 "뱀 게임을 만들어라"와 같은 "작업"을 수행하도록 지시했습니다.
이제 우리는 인공지능에게 "브라우저 만들기"와 같은 "프로젝트"를 수행하도록 지시합니다.
침묵의 나선
이 AI 기반 브라우저는 아직 크롬만큼 성숙하지는 않았지만, 이러한 접근 방식의 실현 가능성을 입증했습니다.
해시레이트 매우 복잡한 엔지니어링 구현 능력으로 전환할 수 있게 되면 소프트웨어 개발의 한계 비용은 거의 0에 가까워질 것입니다.
이 실험에서 가장 눈에 띄는 것은 화면에 나타난 웹페이지가 아니라, 7일 동안 백그라운드에서 조용히 실행되고 있던 진행률 표시줄이었다.
이 기계는 지치지 않고 차분하게 작동하며, 초당 수천 개의 문자를 입력하여 디지털 세계의 기반을 구축합니다.
어쩌면 우리는 "창조"의 정의를 재검토해야 할지도 모릅니다.
도구가 한밤중에도 혼자서 문제를 해결하기 시작할 때 비로소 우리는 그것이 더 이상 단순한 도구가 아니라 동반자임을 깨닫게 된다.
호주 남성의 "사이버 암시장 작업"부터 AI의 장시간 작업까지
단 5줄의 코드로 실리콘 밸리를 뒤흔든 오스트레일리안 셰퍼드는 사실 단 한 가지 일만 했습니다. 바로 인공지능이 목표를 달성할 때까지 멈추지 않도록 만든 것입니다.
Prompt.md에 어떤 명령어가 적혀 있는지는 중요한 문제가 아닙니다.
오늘 Cursor CEO가 실시한 극한 스트레스 테스트처럼, 목표는 크롬 클론, 윈도우 클론, 엑셀 클론을 만드는 것입니다. 목표가 달성될 때까지 AI는 계속 실행될 것입니다. 처음 질문으로 돌아가서:
인공지능은 얼마나 오랫동안 자체적으로 작동할 수 있을까요?
물리적으로 답은 무한대 입니다. 충분한 해시레이트, 안정적인 인프라, 그리고 명확한 작업 정의만 있다면 AI는 무한히 실행될 수 있습니다.
하지만 더 중요한 것은, 이것이 소프트웨어 개발의 경제 구조를 바꿔놓았다는 점입니다.
전통적인 소프트웨어 개발의 주요 비용은 인력과 시간 입니다.
10명으로 구성된 팀으로 복잡한 프로젝트를 개발하는 데는 6개월에서 수년이 걸릴 수 있습니다. 월별 인건비는 수십만 달러에서 수백만 달러에 이를 수 있습니다.
이제 AI는 예전에는 몇 달이 걸리던 작업을 일주일 만에 완료할 수 있습니다.
비용은 토큰 수수료에 불과할 수도 있지만, Stability AI의 전 CEO인 Emad Mostaque는 Cursor 브라우저 프로젝트에 약 30억 개의 토큰이 사용되었을 것으로 추측합니다.
그는 또 다른 아이디어를 떠올렸습니다. 윈도우 수준의 운영 체제를 다시 작성하는 데 필요한 토큰은 몇 개나 될까요? 비용은 얼마나 들까요?
토큰은 과거 물과 전기처럼 점점 더 저렴해지고 있으며, 결국 토큰 기반 컴퓨팅 파워 또한 매우 저렴해질 것입니다.
결과적으로 소프트웨어 경제 구조가 완전히 뒤바뀔 것입니다. 예를 들어, 라이선스 기반의 소프트웨어 비용 지불 방식이 사라질 수도 있습니다.
2026년, 소프트웨어 개발은 유전적 변이를 겪고 있습니다.
과거에는 코드가 사람이 한 줄씩 직접 타이핑해서 만들어지는 것이었습니다.
미래에는 코드가 단순히 인간의 의도를 자동으로 구현하는 것에 불과할지도 모릅니다. 원하는 바를 설명하면 인공지능이 그것을 현실로 만들어낼 수 있는 것이죠.
모델은 얼마나 오랫동안 실행될 수 있나요?
필요한 만큼 계속 작동시킬 수 있습니다 .
참고 자료:
https://x.com/mntruell/status/2011562190286045552
https://x.com/leerob/status/2011565729838166269
https://cursor.com/cn/blog/scaling-agents
이 글은 위챗 공식 계정 "뉴 인텔리전스" 에서 딩후이 알렌이 작성하고 36Kr의 허가를 받아 게재한 글입니다.





