GPT-4.1은 2개월 안에 GPT-4.5를 대체할 것이라고 주장합니다. 얼마나 강한가요? 실제 테스트에서 그 성능은 실제로 놀랍지만, 여전히 Gemini 2.5 Pro와 Claude 3.7 Sonnet을 이길 수는 없습니다. 그렇다면 질문은, OpenAI가 왜 Google보다 훨씬 뒤처진 모델을 출시했을까?
하지만 2개월 후, GPT-4.5는 공식적으로 제거되었고, 오래된 물결이 새로운 물결을 앞지르며 해변으로 밀려났습니다.
GPT-4.1 제품군은 더욱 강력한 인코딩 성능, 수백만 개의 토큰 컨텍스트, 더욱 비용 효율적인 가격으로 4.5를 능가했습니다.
GPT-4.1 나노 버전의 성능은 GPT-4o 미니와 비슷하며, 더 빠르고 저렴합니다.
현재 이러한 모델은 API에서만 사용할 수 있지만, 인기 있는 코딩 플랫폼인 Windsurf와 Cursor는 GPT-4.1의 7일 무료 평가판을 시작했습니다.
보세요, 전체 네트워크에 걸친 실제 테스트의 첫 번째 물결이 도착했습니다.
GPT-4.1은 놀라운 인코딩을 제공하지만 Gemini 2.5를 이길 수는 없습니다.
뛰어난 인코딩으로 유명한 이 모델은 실제 작업에서는 어떤 성능을 보일까요?
OpenAI 과학자들은 GPT-4.1이 추론 모델은 아니지만 소프트웨어 엔지니어링 벤치마크 테스트에서 55%의 점수를 받을 수 있다고 말합니다.
네티즌 플라비오 아다모는 동일한 방법을 사용했습니다. 즉, 공이 회전하는 육각형 안에서 자유낙하하는 모습을 시뮬레이션하여 GPT-4.1 모델 3개와 GPT-4.5의 인코딩 성능을 테스트했습니다.
GPT-4.1이 공의 물리적인 움직임 과정을 정확하게 시뮬레이션한다는 것을 보는 것은 어렵지 않지만, GPT-4.1-mini/GPT-4.1-nano는 크게 뒤처져 있습니다.
GPT-4.5의 성능은 GPT-4.1과 거의 비슷합니다.
비슷한 또 다른 테스트에서는 GPT-4.1에게 사각형을 회전시켜 사각형 안에서 구가 튀는 효과를 시뮬레이션하라는 과제가 주어졌습니다.
Kaggle 개발자 Parul Pandey는 GPT-4.1을 사용하여 교육용 물리 시뮬레이션을 만드는 것이 재미있었다고 말했습니다.
아래에 표시된 것처럼, 공을 이용해 피라미드를 쓰러뜨리는 코드 생성 과정에서 모델은 불필요한 파일을 거의 읽지 않으며 코드 구조도 매우 간결합니다.
또 다른 엔지니어는 Windsurf를 사용하여 GPT-4.1이 30초 만에 Snake 게임을 생성하도록 했습니다.
마이크로소프트 연구원 디미트리스 파파일리오풀로스는 유니콘을 그리기 위해 GPT-4.1, GPT-4o, GPT-4.5를 사용했으며, 4.1이 4o보다 매개변수가 적다고 추측했습니다.
솔직히 말해서, GPT-4.1에서 생성된 유니콘은 가장 못생겼습니다.
워튼 스쿨의 이선 몰릭 교수는 GPT-4.1을 사용하여 우주선 제어판을 위한 p5js를 생성했습니다. 그는 GPT-4와 비교했을 때 4.1이 큰 진전을 이루었으며 전반적으로 좋은 성과를 보였다고 말했습니다.
게다가 이선은 GPT-4.1이 처음으로 Twigl에서 셰이더를 실행할 수 있는 네 번째 모델이라고 밝혔습니다.
네티즌들은 GPT-4.1과 Gemini 2.5 Pro에 네온 불빛으로 밝혀진 사이버펑크 도시의 야경을 시뮬레이션해 달라고 요청했습니다. 이 경우 4.1 모델은 여전히 Google 모델보다 훨씬 강력합니다.
위의 데모에서 GPT-4.1의 인코딩 성능이 실제로 놀랍다는 것을 알아내는 것은 어렵지 않지만, 거시적인 관점에서 보면 Gemini 2.5 Pro와 Claude 3.7 Sonnet만큼 좋지는 않습니다.
최신 Aider 다국어 인코딩 테스트에서 GPT-4.1은 52.4%를 기록하여 Grok 3 및 DeepSeek V3에 근접했습니다. 비용도 o3-mini에 비해 절반으로 줄었습니다.
네티즌들은 GPT-4.1 프로그래밍이 DeepSeek V3만큼 좋지는 않지만, 가격이 8배나 더 비싸다고 불평했습니다.
마찬가지로 최신 Livebench 벤치마크 평가에서도 GPT-4.1의 추론, 인코딩, 수학적 기능이 Gemini 2.5보다 떨어진다는 것이 확인되었습니다.
Abacus.AI의 창립자인 빈두 레디는 4.1의 성능이 GPT-4o보다 높다고 말했지만, Livebench 결과는 새로운 모델이 4o의 점진적인 업데이트일 뿐임을 보여줍니다.
하버드 대학교 과학자 피에르 봉그랑은 OpenAI가 처음으로 구글보다 훨씬 뒤처진 모델을 출시했다고 지적했습니다.
GPQA Diamond 지식 질의응답 벤치마크 테스트에서 GPT-4.1 제품군은 인간 박사 수준에는 도달하지 못했으며, Gemini 2.5 Pro를 능가하는 것은 더더욱 불가능했습니다.
한 네티즌은 패러디 사진에서 OpenAI가 GPT-4와 GPT-4.1을 출시하던 시기에 구글이 Bard를 가장 강력한 버전인 Gemini 2.5로 발전시켰다고 농담을 했습니다.
올해의 AI 전쟁은 분명 OpenAI와 Google 간의 궁극적인 정면 대결이 될 것입니다.
구글은 포위당했지만 OpenAI를 과소평가할 수는 없다
GPT-4.1이 출시됨에 따라 Ai2의 사후 교육 책임자인 Nathan Lambert도 가능한 한 빨리 분석 기사를 게시했습니다.
그는 GPT-4.1이 사소한 버전 업데이트이기는 하지만 최고의 API 업무 이끄는 모델이 매우 다르다는 점이 더 분명해졌다고 말했습니다.
현재 OpenAI는 GPT-4.1을 사용하여 API와 ChatGPT를 분리하고 있습니다.
ChatGPT의 모델은 모든 달러의 지능을 최적화하는 것이며, ChatGPT가 API 업무 처리하는 방식에서 앞으로도 차이점을 계속 보게 될 것입니다.
최근 OpenAI는 다양한 소규모 업데이트를 진행해 왔으며, 궁극적인 비전은 ChatGPT를 API에 독립적인 모놀리식 애플리케이션으로 만드는 것입니다.
지난주에 ChatGPT의 메모리 기능이 개선되었습니다.
오늘 OpenAI는 Google의 Gemini와 직접 경쟁하는 또 다른 API 전용 모델인 GPT-4.1을 발표했습니다.
개별적으로 살펴보면, 최근 출시된 제품 중 실제로 획기적인 혁신을 이룬 것은 없습니다. 결국, 비슷한 성능을 가진 모델은 이미 존재합니다.
하지만 이러한 업데이트는 OpenAI의 전략적 초점이 어디로 향하고 있는지 보여줍니다.
현재 주간 활성 사용자 수가 19억 명을 넘어섰습니다. 현재 필요한 것은 ChatGPT와 이를 뒷받침하는 모델인데, 이는 시중에 나와 있는 다른 AI 제품과는 완전히 다릅니다.
코딩이나 정보 처리에 주로 초점을 맞춘 다른 제품과 달리 ChatGPT는 개성, 분위기, 엔터테인먼트에 특히 중점을 둡니다.
이에 대한 전형적인 예로는 GPT-4.5가 높은 가격 정책으로 인해 API에서 더 이상 지원되지 않지만 ChatGPT에는 그대로 유지된다는 것입니다.
앞으로 나올 o3, o4 또는 오픈 모델은 여전히 OpenAI의 거시적 전략적 방향이 무엇인지 불분명하게 만들고 있습니다.
아래 그림에서 볼 수 있듯이 OpenAI가 전달하는 핵심 메시지는 간단합니다. 더 나은 성능과 더 빠른 추론 속도를 갖춘 모델을 제공하는 것입니다.
아래는 새로운 OpenAI 모델과 Google Gemini 토큰 100만 개당 가격(USD)을 비교한 것입니다.
OpenAI의 새로운 모델:
GPT-4.1: 입력/출력: 2.00/8.00 | 캐시 입력: 0.50
GPT-4.1 Mini: 입력/출력: 0.40/1.60 | 캐시 입력: 0.10
GPT-4.1 Nano: 입력/출력: 0.10/0.40 | 캐시 입력: 0.025
OpenAI 이전 모델:
GPT-4o: 입력/출력: 2.5/10.00 | 캐시 입력: $1.25
GPT-4o Mini: 입력/출력: 0.15/0.60 | 캐시 입력: $0.075
구글 제미니:
Gemini 2.5 Pro(≤200K 토큰): 입/출금: 1.25/10.00 | 캐시: 사용할 수 없음
Gemini 2.5 Pro(>200K 토큰): 입/출금: 2.50/15.00 | 캐시: 사용할 수 없음
Gemini 2.0 플래시: 입력/출력: 0.10/0.40 | 캐시 입력: 0.025(텍스트/이미지/비디오), 0.175(오디오)
Gemini 2.0 Flash-Lite: 입력/출력: 0.075/0.30 | 캐시: 사용할 수 없음
OpenAI의 모델은 학술적 평가에서 좋은 성과를 거두었지만, 이는 실제 성과를 완전히 반영하지는 않습니다. 결국, 실제로는 반복적이고 틈새적인 작업을 수행해야 합니다.
분명히, 이 새로운 모델은 Gemini Flash와 Flash-Lite와 직접 경쟁하기 위해 만들어졌습니다(Gemini 2.5 Pro의 놀라운 출시 이후, 많은 기대를 모았던 Gemini 2.5 Flash도 곧 출시될 예정입니다).
비교해 보면, GPT-4o-mini의 성능은 이미 뒤처져 있으며 플래시만큼 사용하기 쉽지 않습니다.
API 업무 에서 성공하려면 OpenAI가 Gemini가 이미 우위를 점하고 있는 이 최첨단 분야에서 획기적인 발전을 이루어야 합니다.
모두 GPT-4.5에서 추출한 것인가요?
많은 사람들은 OpenAI의 공식 선전에서 새로운 모델의 출시 패턴이 정확히 동일하다는 것을 알아챘습니다. 즉, 광범위한 개선 사항은 있지만 구체적인 이유에 대한 설명은 거의 없습니다.
따라서 이러한 다양한 새로운 모델은 더 나은 개성과 추론 능력을 얻기 위해 GPT-4.5에서 추출된 것이 거의 확실합니다.
또는 코딩과 수학 측면에서 o3와 같은 모델을 활용하는 것입니다.
새로운 모델이 코드 측면에서 상당한 진전을 이룬 것을 볼 수 있습니다. 아시다시피, OpenAI의 초기 모델은 이런 측면에서 매우 형편없었습니다. 거의 0에 가까웠죠.
그러나 이러한 새로운 모델은 코딩과 수학적 평가 측면에서 Gemini 2.5(추론 모델)나 Claude 3.7(선택적 추론 모델)과 같은 최첨단 모델에 비해 여전히 상당히 뒤처져 있습니다.
오늘날 우리는 추론을 포괄하는 모델로의 전환 초기 단계에 있지만, 가장 적합한 단일 모델이 무엇인지에 대한 개념은 더욱 복잡해졌습니다.
이러한 추론 모델은 이전보다 훨씬 더 많은 토큰을 소비함으로써 상당한 성능 향상을 달성할 것입니다. 성능이 가장 중요하지만, 성능이 동일하다면 비용이 낮은 쪽이 승리합니다.
하지만 선두주자의 이점은 여전히 흔들기 어렵습니다.
하지만 결국 대부분의 일반 사용자에게는 위의 기술적 세부 사항은 실제로 큰 의미가 없습니다.
그들에게는 "모델 참여"라는 농담이 붙은 귀찮은 슬라이더가 더 직관적입니다.
오랫동안 많은 사람들은 API 가격보다 챗봇 구독료에 대해 더 주저했습니다.
하지만 진정으로 개인화되고 사용자 친화적인 경험은 이러한 통합 애플리케이션 내에서만 가능하다는 것이 점점 더 명확해지고 있습니다.
물론 개발자는 API를 통해 경쟁 제품을 구축하고 사용자 상호 작용 데이터를 축적할 수도 있지만, OpenAI가 이미 제품 수준에서 선두주자로서의 엄청난 이점을 확립했다는 점을 감안하면 OpenAI를 이기는 것은 쉽지 않을 수 있습니다.
이 모든 것은 우리의 이해를 다시 한번 확인시켜 줍니다. 즉, 현재 AI 개발에서 상품화가 최우선 순위라는 것입니다.
메모리 기능과 ChatGPT 제품군과 API 서비스 간의 명확한 분리는 OpenAI가 향후 개발의 길을 여는 데 도움이 될 것입니다.
하지만 OpenAI가 이 비전을 완전히 실현하기 위해서는 아직 갈 길이 멉니다.
참고문헌:
https://x.com/bindureddy/status/1911865521504747563
https://x.com/paulgauthier/status/1911927464844304591
https://x.com/flavioAd/status/1911848067470598608
본 기사는 위챗 공개 계정 "Xinzhiyuan" 에서 발췌하였으며, 저자는 Xinzhiyuan이고, 36Kr에서 허가를 받아 게시하였습니다.


