정말 잔인하네요! 울트라맨이 직접 GPT-5.2를 "파괴"했습니다. 오픈AI가 가장 강력한 프로그래밍 AI를 공개한 것입니다.

avatar
36氪
12-19
이 기사는 기계로 번역되었습니다
원문 표시

GPT-5.2-코덱스, 한밤중에 닥친 기습 공격!

이는 OpenAI가 현재까지 개발한 AI 에이전트 프로그래밍 모델 중 가장 강력한 모델로, 복잡한 실제 소프트웨어 엔지니어링을 위해 특별히 설계되었습니다.

이름에서 알 수 있듯이 GPT-5.2-Codex는 GPT-5.2를 기반으로 더욱 최적화된 버전으로, 여러 기능에서 핵심적인 개선을 이루었습니다.

컨텍스트 압축은 장시간 소요되는 작업을 처리하는 능력을 향상시킵니다.

리팩토링 및 마이그레이션과 같은 대규모 코드 변경 시 성능이 향상되었습니다.

Windows 환경에서 프로그래밍 기능이 크게 향상됩니다.

최고의 사이버 보안 역량

알트만은 "OpenAI와 유사한 기술"이 이미 사용되어 매우 좋은 결과를 얻었다고 주장했습니다.

벤치마크 테스트에서 GPT-5.2-Codex는 소프트웨어 엔지니어링 및 터미널 테스트 분야에서 5.1-Codex-Max, GPT-5.2 및 GPT-5.1보다 우수한 성능을 보였습니다.

OpenAI 블로그는 GPT-5.2-Codex가 현재까지 최고 수준의 사이버 보안을 달성했다고 거듭 강조해왔습니다.

바로 지난주, 한 보안 연구원이 GPT-5.1-Codex-Max+Codex CLI를 사용하여 React 취약점을 발견했고, 이로 인해 소스 코드가 유출되었습니다.

오늘부터 모든 유료 사용자는 GPT-5.2-Codex를 사용할 수 있으며, API는 향후 몇 주 내에 제공될 예정입니다.

GPT-5.2-Codex 프로그래밍 열풍: 끊김 없이 장시간 실행

완전히 새로워진 AI 에이전트 프로그래밍 도구인 GPT-5.2-Codex는 간단히 말해 강력한 협업 도구입니다.

이는 GPT-5.2가 원래 뛰어났던 "전문적인 작업 처리 능력"을 계승했을 뿐만 아니라, AI 에이전트 프로그래밍 및 터미널 운영에 있어서 5.1-Codex-Max의 기능까지 학습했습니다.

이렇게 하면 그 진전이 매우 구체적으로 드러납니다.

긴 문맥 이해, 도구 호출, 사실 정확성 및 네이티브 문맥 압축과 같은 영역에서 상당한 개선이 이루어졌습니다.

따라서 GPT-5.2-Codex는 장시간 실행되는 프로그래밍 작업을 안정적으로 지원하고 추론 중에 토큰을 절약할 수 있습니다.

업계 최고 수준의 벤치마크 테스트에서 5.2-Codex는 SWE-Bench Pro 및 Terminal-Bench 2.0에서 새로운 최첨단(SOTA) 기록을 세웠습니다.

5.1-Codex 버전과 비교했을 때 성능이 약 6% 향상되었습니다.

이 두 가지 테스트는 모델이 실제 터미널 환경에서 다양한 작업을 처리할 때 에이전트의 기능을 평가하기 위해 특별히 설계되었습니다.

동시에 네이티브 Windows 환경에서의 에이전트 프로그래밍 성능이 크게 향상되어 GPT-5.1-Codex-Max에서 도입된 기능을 더욱 확장했습니다.

이러한 개선 덕분에 Codex는 대규모 코드베이스에서 장기간 작업하면서도 항상 전체 컨텍스트를 유지할 수 있습니다.

이는 GPT-5.2-Codex가 대규모 리팩토링, 코드 마이그레이션 및 기능 개발과 같은 복잡한 작업을 안정적으로 완료할 수 있음을 의미합니다.

계획이 수정되거나 시도가 도중에 실패하더라도, 방향을 잃지 않고 계속해서 개선해 나갈 수 있습니다.

게다가 GPT-5.2-Codex는 훨씬 더 강력한 "비전"을 가지고 있습니다.

프로그래밍할 때 스크린샷, 기술 도면, 차트 및 다양한 UI 인터페이스를 직접 전송하면 프로그램이 이를 더욱 정확하게 이해합니다.

더욱 놀라운 것은, 이 장치가 디자인 초안을 직접 읽어 기능적인 프로토타입으로 빠르게 변환할 수 있다는 점입니다.

동시에 개발자들은 Codex와 협력하여 이러한 프로토타입을 단계적으로 개선하여 공식 출시 준비를 마칠 수도 있습니다.

세 가지 주요 도약: 인공지능이 현실 세계를 "정복"했다

OpenAI의 핵심 사이버 보안 평가 중 하나에서 시간이 지남에 따라 역량이 크게 향상된 것을 분명히 확인할 수 있습니다.

GPT -5-Codex는 최초로 의미 있는 개선을 가져왔습니다.

GPT -5.1-Codex-Max는 두 번째 버전을 출시했습니다.

GPT -5.2-Codex가 세 번째 도약을 달성했습니다.

OpenAI는 미래의 AI 모델이 이러한 추세를 따라 계속 발전할 것이라고 믿습니다.

계획 수립 및 역량 평가를 할 때, 그들은 항상 각 세대의 모델이 "준비성 프레임"에 정의된 "높은" 수준의 사이버 보안 역량에 도달할 잠재력을 가지고 있다고 가정해 왔습니다.

하지만 GPT-5.2-Codex는 아직 이 수준에 도달하지 못했습니다.

그렇다면 OpenAI의 에이전트 프로그래밍 모델은 실제 환경에서 어떻게 작동할까요?

단 일주일 만에 위험도가 높은 React 취약점이 발견되었습니다.

12월 11일, React 팀은 React 서버 컴포넌트에서 세 가지 보안 취약점을 발견했습니다.

그러자 스트라이프 산하 회사인 프리비의 최고 보안 엔지니어인 앤드류 맥퍼슨은 이 취약점을 이용해 현재 AI 모델이 실제로 얼마나 강력한지 "테스트"하기로 결정했습니다.

그는 GPT-5.1-Codex-Max+Codex CLI를 비롯한 여러 프로그래밍 에이전트를 사용했는데, 취약점을 재현하고 연구하는 과정에서 예상치 못하게 심각한 React 취약점을 발견했습니다.

구체적인 실무 과정은 다음과 같습니다.

처음에 그는 제로샷 학습 분석을 여러 번 시도하여 모델이 직접 패치를 확인하고 수정된 취약점 유형을 판단하도록 했지만 성공하지 못했습니다.

그는 이후 보다 빈번하고 반복적인 프롬프트 방식을 사용했고, 이러한 방법으로도 실패하자 Codex가 표준 방어 보안 절차에 따라 작업하도록 안내했습니다. 즉, 로컬 테스트 환경을 구축하고, 잠재적인 공격 표면을 분석하고, 퍼징을 통해 시스템에 비정상적인 입력을 주입하는 등의 작업을 수행했습니다.

Codex는 React2Shell의 원래 문제를 재현하려는 과정에서 추가 조사가 필요한 몇 가지 비정상적인 동작을 발견했습니다.

결과적으로, 단 일주일 만에 이 과정을 통해 이전에 알려지지 않았던 취약점이 발견되었고, 이후 해당 취약점은 책임감 있게 React 팀에 공개되었습니다.

이 사례는 첨단 AI 시스템이 실제 널리 사용되는 소프트웨어 분야의 방어 보안 연구를 얼마나 크게 가속화할 수 있는지를 명확하게 보여줍니다.

사용자 테스트

한 개발자가 GPT-5.2-Codex로 작성된 프로그램을 테스트하여 도로 위의 차량과 신호등의 작동을 시뮬레이션했지만 실패했습니다.

하지만 일부 사람들은 이 제품이 제미니 3 플래시 및 프로와 동일한 정교한 애니메이션 효과를 가지고 있다고 믿습니다.

GPT-5.2-Codex는 카운터 스트라이크 게임을 생성하는 데 있어 탁월한 성능을 보여주었습니다.

결론적으로, OpenAI는 GPT-5.2-Codex의 출시가 실제 소프트웨어 개발 및 사이버 보안 분야에서 AI의 발전을 위한 또 하나의 중요한 진전이라고 생각합니다.

이를 통해 개발자는 복잡하고 시간이 많이 소요되는 작업을 쉽게 처리할 수 있으며, 사이버 보안 연구를 위한 도구 지원도 더욱 강화할 수 있습니다.

참고 자료:

https://openai.com/index/introducing-gpt-5-2-codex/

https://openai.com/index/gpt-5-2-codex-system-card/

이 글은 위챗 공식 계정 "신지위안" 에서 가져온 것으로, 작성자는 신지위안, 편집자는 피치 이즈 슬리피이며, 36Kr의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트