지둥시는 4월 15일 OpenAI가 GPT-4.1 시리즈의 세 가지 모델을 한꺼번에 출시했다고 보도하면서, 이것이 역대 가장 작고, 가장 빠르고, 가장 저렴한 모델 시리즈라고 주장했습니다. 또한, 새로운 모델의 전반적인 성능은 GPT-4o 및 GPT-4o mini보다 우수하다고 덧붙였습니다.
GPT-4.1 시리즈 모델에는 GPT-4.1, GPT-4.1 mini, GPT-4.1 nano의 세 가지 모델이 포함됩니다. 각 모델의 컨텍스트 창은 100만 토큰에 도달하고, 출력 토큰 수는 32,768에 도달하며 , 지식 마감일은 2024년 6월입니다. OpenAI의 벤치마크 테스트에 따르면 인코딩, 명령어 따르기, 장문 텍스트 이해 부문의 점수가 모두 GPT-4o 및 GPT-4o mini의 점수를 능가합니다.
GPT-4.1 시리즈 모델은 API를 통해서만 제공되었지만, 현재는 모든 개발자에게 공개되었습니다 . OpenAI는 자사 API에서 GPT-4.5 미리보기 버전을 더 이상 사용하지 않기로 했습니다. GPT-4.1 모델 제품군은 많은 주요 기능에서 비슷한 성능을 제공하면서도 비용과 지연 시간은 더 낮기 때문입니다. GPT-4.5 미리보기는 올해 7월 14일에 종료됩니다 .
특정 성능 최적화는 인코딩, 명령어 따르기, 긴 텍스트 이해에 중점을 둡니다.
인코딩 : GPT-4.1은 SWE-벤치 검증 테스트에서 54.6%의 점수를 받았는데, 이는 GPT-4o보다 21.4%, GPT-4.5보다 26.6% 향상된 수치입니다.
지시 따르기 : 지시 따르기 능력을 측정하는 Scale의 MultiChallenge 벤치마크에서 GPT-4.1은 38.3%를 기록하여 GPT-4o보다 10.5% 향상되었습니다.
긴 텍스트 이해 : 다중 모드 긴 텍스트 이해를 위한 Video-MME 벤치마크에서 GPT-4.1은 자막 없는 긴 텍스트 범주에서 72.0%의 점수를 기록했으며, 이는 GPT-4o보다 6.7% 향상되었습니다.
지연 시간에 더 민감한 시나리오의 경우 OpenAI는 GPT-4.1 nano를 강조하며 이것이 자사 모델 중 가장 빠르고 경제적인 모델이라고 밝혔습니다. GPT-4.1 나노 벤치마크 MMLU 점수는 80.1%, GPQA 점수는 50.3%, Aider 다국어 인코딩 점수는 9.8%로 모두 GPT-4o 미니보다 높습니다.
OpenAI는 블로그에서 성능이 뛰어나고 경제성이 더 뛰어난 GPT-4.1 시리즈 모델을 통해 개발자가 지능형 시스템과 복잡한 지능형 에이전트 애플리케이션을 구축할 수 있는 새로운 가능성이 열릴 것이라고 언급했습니다.
가격 측면에서 중간 규모의 쿼리의 경우 GPT-4.1은 GPT-4o보다 26% 저렴하고 , 동일한 컨텍스트를 재사용하는 쿼리의 경우 OpenAI는 힌트 캐시 할인율을 50%에서 75%로 높였습니다. 마지막으로, OpenAI는 표준 토큰당 요금을 초과하는 긴 컨텍스트 요청에 대해 추가 요금을 청구하지 않습니다.
01.
코딩 능력: GPT-4o보다 우수함
80% 이상의 사용자가 GPT-4.1 애플리케이션을 좋아합니다.
GPT-4.1은 코딩 작업을 사전에 해결하는 것, 프런트엔드 코딩, 불필요한 편집을 줄이는 것, diff 형식을 따르는 것, 도구 사용에서 일관성을 유지하는 것 등 다양한 코딩 작업에서 GPT-4o보다 우수한 성능을 보입니다 .
GPT-4o와 비교했을 때, GPT-4.1은 아래에 표시된 "플래시 카드" 애플리케이션과 같이 더욱 강력하고 아름다운 웹 애플리케이션을 만들 수 있습니다.
실제 소프트웨어 엔지니어링 기술을 측정하는 지표인 SWE-bench Verified에서 GPT-4.1은 작업의 54.6%를 완료했고, GPT-4o는 33.2%를 완료했습니다 . 이는 GPT-4.1이 코드 베이스 탐색, 작업 완료, 실행 가능하고 테스트 가능한 코드 생성 능력이 향상되었음을 보여줍니다.
▲이 테스트에서 모델은 코드베이스와 문제 설명을 받은 후 문제를 해결하기 위한 패치를 생성해야 합니다. 모델의 성능은 사용되는 프롬프트와 도구에 따라 크게 달라집니다.
대용량 파일을 편집하려는 API 개발자 의 경우, GPT-4.1은 여러 형식의 코드 차이에 더욱 강력합니다. GPT-4.1은 다국어 차이 벤치마크인 Aider에서 GPT-4o보다 두 배 높은 점수를 받았고 GPT-4.5보다 8% 더 높은 점수를 받았습니다.
이 평가에서는 다양한 프로그래밍 언어로 인코딩하는 모델의 능력과 전체적 및 차등적 형식 모두에서 변경 사항을 생성하는 능력을 모두 조사합니다. OpenAI는 GPT-4.1이 diff 형식을 따르도록 특별히 훈련시켰는데, 이를 통해 개발자는 모델이 전체 파일을 다시 작성하는 대신 변경된 줄만 출력하도록 하여 비용과 지연 시간을 줄일 수 있습니다.
또한 OpenAI는 GPT-4.1의 출력 토큰 한도를 32,768개로, GPT-4o의 출력 토큰 한도를 16,384개로 늘렸으며, 전체 파일을 다시 쓸 때의 지연 시간을 줄이기 위해 예측 출력을 사용할 것을 제안했습니다.
▲Aider에서는 소스 파일을 편집하여 Exercism의 코딩 연습 문제를 풀고, 한 번의 재시도를 허용합니다.
프런트엔드 코딩 측면에서 GPT-4.1은 더욱 강력하고 아름다운 웹 애플리케이션을 만들 수 있습니다. OpenAI의 비교 테스트에서 인간 평가자는 GPT-4o로 생성된 사이트보다 GPT-4.1로 생성된 사이트를 80% 더 선호했습니다.
위의 벤치마크 외에도 GPT-4.1은 불필요한 편집을 줄일 수 있습니다. OpenAI의 내부 평가에 따르면 코드의 불필요한 편집은 GPT-4o에서 9%에서 GPT-4.1에서는 2%로 감소했습니다 .
02.
지침 따르기: 6가지 핵심 지침에 대한 성과 평가
멀티 라운드 자연대화의 효과는 GPT-4o보다 10.5% 더 높습니다.
OpenAI는 다음을 포함한 여러 차원과 몇 가지 주요 교육 수행 범주에 걸쳐 모델의 성능을 추적하는 내부 평가 시스템을 개발했습니다.
형식 따르기 : XML, YAML, Markdown 등과 같은 모델 응답에 대한 사용자 정의 형식을 지정하기 위한 지침을 제공합니다.
부정적 지침 : 모델이 피해야 할 동작을 지정합니다(예: "사용자에게 지원팀에 문의하도록 요청하지 마세요").
정렬된 지침 : "먼저 사용자에게 이름을 묻고, 그 다음 이메일을 묻습니다"와 같이 주어진 순서대로 실행해야 하는 일련의 지침을 모델에 제공합니다.
콘텐츠 요구 사항 : "영양 계획을 작성할 때는 항상 단백질 함량을 포함하세요"와 같이 특정 정보가 포함된 콘텐츠를 출력합니다.
순위 : "인구 규모별 순서 "과 같이 특정 방식으로 출력을 순서 .
과신 : 요청된 정보를 사용할 수 없거나 요청이 주어진 범주에 속하지 않는 경우 모델에 "모르겠습니다" 또는 이와 비슷한 대답을 하도록 지시합니다. 예를 들어: "답변을 모르는 경우 지원 연락처 이메일을 제공해 주세요."
OpenAI 블로그에서는 이러한 카테고리가 개발자 피드백을 기반으로 파생되었다고 언급합니다. 각 카테고리에서 OpenAI는 프롬프트를 쉬움, 보통, 어려움으로 분류하고 있으며, GPT-4.1은 어려운 프롬프트 측면에서 GPT-4o에 비해 상당한 개선을 보였습니다.
▲어려운 프롬프트에서의 GPT-4.1 성능
개발자에게 다중 턴 명령 수행 이 중요한 이유는 모델이 대화의 일관성을 유지하고 사용자가 이전에 말한 내용을 추적해야 하기 때문입니다. OpenAI는 GPT-4.1을 훈련시켜 과거 대화에서 정보를 더 잘 클레임 하고, 이를 통해 더 자연스러운 대화를 만들어냈습니다. Scale의 MultiChallenge 벤치마크에서 GPT-4.1은 GPT-4o보다 10.5%의 개선을 달성했습니다 .
▲MultiChallenge에서 GPT-4.1 테스트 결과
IFEval 테스트 에서는 검증 가능한 지침이 있는 프롬프트를 사용합니다. 예를 들어, 콘텐츠 길이를 지정하거나 특정 용어나 형식을 피하는 것입니다. GPT-4.1은 87.4%, GPT-4o는 81.0%를 기록했습니다.
▲IFEval에서 GPT-4.1 테스트 결과
초기 테스터들은 GPT-4.1이 문자적 의미를 더 잘 이해할 가능성이 높다는 점을 지적했으므로 OpenAI에서는 개발자가 프롬프트에서 구체적인 지침을 지정할 것을 권장합니다.
03.
긴 텍스트 이해: 대규모 코드베이스 및 긴 문서 처리에 적합
건초더미에서 바늘을 찾는 것은 문제가 아닙니다
GPT-4.1 시리즈 모델은 100만 개의 토큰 컨텍스트를 처리할 수 있는 반면, 이전 GPT-4o의 컨텍스트 창은 128,000개였습니다. 100만 개의 토큰은 전체 React 코드베이스 크기의 8배가 넘습니다. 따라서 긴 컨텍스트는 대규모 코드베이스나 대량 의 긴 문서를 처리하는 데 적합합니다 .
OpenAI는 또한 GPT-4.1 모델을 훈련시켜 길고 짧은 맥락에서 방해가 되는 정보를 무시하도록 했습니다. 이는 법률, 코딩, 고객 지원 등 다양한 분야의 기업 애플리케이션에 필수적인 기능입니다.
블로그에서 OpenAI는 GPT-4.1 이 컨텍스트 창 내의 다양한 위치에서 소량의 숨겨진 정보(즉, "바늘")를 검색하는 능력을 보여주었는데, 이는 "건초더미에서 바늘을 찾는" 능력과 같습니다.
▲OpenAI의 GPT-4.1 모델에 대한 내부 평가
결과는 GPT-4.1이 모든 위치와 다양한 컨텍스트 길이(최대 100만 토큰)에서 이 주요 정보("바늘")를 정확하게 검색할 수 있음을 보여줍니다. 입력 콘텐츠의 어느 부분에 관련 세부 정보가 있는지에 관계없이 해당 작업과 관련된 세부 정보를 클레임.
실제로 사용할 때 사용자는 여러 정보를 이해하고 검색하고, 이러한 정보 간의 관계를 이해하기 위해 모델이 필요한 경우가 많습니다. 이러한 기능을 평가하기 위해 OpenAI는 새로운 평가 도구인 OpenAI-MRCR(Multi-Round Core Word Recognition)을 오픈 소스로 공개했습니다.
OpenAI-MRCR을 사용하면 컨텍스트에서 여러 개의 숨겨진 주요 정보를 찾아 구별하는 모델의 능력을 테스트할 수 있습니다. 평가는 사용자와 보조자 간의 여러 차례의 합성 대화로 구성되며, 사용자는 모델에게 특정 주제에 관한 기사를 작성하도록 요청합니다.예: 또는 "바위에 대한 블로그 글을 작성하세요". 그런 다음 전체 대화 컨텍스트에 동일한 요청 2개, 4개 또는 8개를 삽입하고, 모델은 특정 요청 인스턴스에 해당하는 응답을 검색해야 합니다.
OpenAI-MRCR에서 모델이 답하는 질문에는 맥락 속에 2개, 4개 또는 8개의 유사한 프롬프트 단어 방해 요소가 흩어져 있으며, 모델은 이러한 질문과 사용자 프롬프트를 구분해야 합니다.
▲OpenAI-MRCR에서 2개의 distractor를 추가하여 질문에 답한 모델의 평가 결과
▲OpenAI-MRCR에서 4개의 distractor를 추가하여 질문에 답한 모델의 평가 결과
▲OpenAI-MRCR에서 8개의 디스트랙터를 추가하여 질문에 답한 모델의 평가 결과
여기서의 과제는 이러한 요청이 나머지 컨텍스트와 매우 유사하고, 미묘한 차이로 인해 모델이 쉽게 오도될 수 있다는 것입니다. OpenAI는 컨텍스트 길이가 128K 토큰에 도달하면 GPT-4.1이 GPT-4o보다 성능이 우수하다는 것을 발견했습니다.
OpenAI는 또한 멀티홉 장기 컨텍스트 추론을 평가하기 위한 데이터 세트 Graphwalks를 출시했습니다. 개발자의 많은 사용 사례에는 긴 맥락이 필요하기 때문에 맥락에서 여러 번의 논리적 점프가 필요합니다. 예를 들어, 코드를 작성할 때 여러 파일 사이를 이동하거나 복잡한 법률 질문에 답할 때 문서를 교차 참조해야 하는 경우가 있습니다.
그래프워크에서는 모델이 맥락 속의 여러 위치를 추론할 수 있어야 합니다. 16진수 해시로 구성된 방향 그래프로 컨텍스트 창을 채운 다음, 모델이 그래프의 무작위 노드에서 시작하여 너비 우선 탐색(BFS)을 수행하도록 요구한 다음 특정 깊이까지의 모든 노드를 반환하도록 요구합니다.
▲그래프워크 평가 결과
GPT-4.1은 이 벤치마크에서 61.7%의 정확도를 달성하여 o1의 성능과 동일하고 GPT-4o를 앞지릅니다.
모델의 성능과 정확성 외에도 개발자에게는 사용자 요구 사항을 충족시키기 위해 신속하게 대응할 수 있는 모델도 필요합니다. OpenAI는 첫 번째 토큰까지의 시간을 줄이기 위해 추론 스택을 개선했으며, 힌트 캐싱을 통해 대기 시간과 비용을 더욱 줄였습니다.
OpenAI의 예비 테스트에 따르면 GPT-4.1의 p95 첫 번째 토큰 지연 시간은 128,000개의 컨텍스트 토큰에서 약 15초이고, 100만 개의 컨텍스트 토큰에서는 30초입니다. GPT-4.1 미니와 나노가 더 빠릅니다. 예를 들어 , GPT-4.1 nano는 일반적으로 128,000개의 입력 토큰이 있는 쿼리에 대해 5초 이내에 첫 번째 토큰을 반환합니다 .
04.
다중 모드 이해: 자막 없이 비디오의 질문에 답하고 다이어그램을 사용하여 수학 문제 풀기
GPT-4o보다 성능이 뛰어납니다
이미지 이해 측면에서 GPT-4.1 mini는 이미지 벤치마크 에서 GPT-4o보다 우수한 성능을 보입니다.
긴 비디오를 처리하는 등의 다중 모드 사용 사례의 경우에도 긴 컨텍스트 성능이 중요합니다. Video-MME(자막 없는 긴 영상)에서 이 모델은 자막 없는 30~60분 길이의 영상을 기반으로 객관식 질문에 답했으며 , GPT-4.1은 GPT-4o의 65.3%보다 높은 72.0%의 점수를 받았습니다.
모델이 그래프, 차트, 지도 등을 포함하는 질문에 답한 MMMU 테스트 결과:
시각적 수학 과제를 풀고 있는 모델의 MathVista 테스트 결과:
과학 논문의 그래프에 대한 질문에 답하는 모델에 대한 CharXiv-추론 테스트 결과:
05.
결론: 복잡한 지능형 에이전트 구축 가능성 확대
GPT-4.1의 개선 사항은 일상적인 개발에 있어서 개발자의 실제적인 요구와 관련이 있습니다. 코딩, 지시 수행부터 장기적 맥락 이해까지, 성능이 뛰어나고 경제적인 GPT-4.1 시리즈 모델은 지능형 시스템과 복잡한 지능형 에이전트 애플리케이션을 구축할 수 있는 새로운 가능성을 열어주었습니다.
앞으로 개발자들은 이를 다양한 API와 함께 사용하여 실제 소프트웨어 엔지니어링에 적용될 수 있는 더욱 유용하고 안정적인 에이전트를 구축하고, 대량 문서에서 통찰력을 클레임, 최소한의 인적 개입으로 고객 요청을 해결하고, 기타 복잡한 작업을 수행할 수 있는 잠재력을 가지고 있습니다.
본 기사는 WeChat 공개 계정 "Smart Things"(ID: zhidxcom) 에서 발췌한 것으로, 저자는 Cheng Qian, 편집자는 Yun Peng이며, 36Kr에서 출판 허가를 받았습니다.


