GPT-4.1은 USTC 동문들이 주도하여 밤늦게 데뷔했으며, 놀라운 백만 컨텍스트 프로그래밍을 선보였습니다. GPT-4.5는 3개월 안에 종료됩니다.

avatar
36氪
04-15
이 기사는 기계로 번역되었습니다
원문 표시

방금 OpenAI가 개발자를 위해 특별히 출시한 세 가지 새로운 모델이 있습니다: GPT-4.1 , GPT-4.1 mini , GPT-4.1 nano!

이들 모두 최대 100만 토큰의 초대형 컨텍스트 윈도우를 보유하고 있으며, 코드 및 명령어 추적과 같은 핵심 기능 면에서 GPT-4o 및 GPT-4o mini를 전면적으로 능가합니다. 지식 마감일도 2024년 6월로 업데이트되었습니다.

GPT‑4.1 시리즈는 API를 통해서만 제공되며 모든 개발자에게 공개된다는 점이 주목할 만합니다.

GPT-4.1 nano 는 OpenAI의 첫 번째 나노 모델이며, 현재 출시된 모델 중 가장 빠르고 저렴한 모델입니다.

크기가 작다고 해서 속지 마세요. 성능은 전혀 약하지 않습니다. MMLU 점수는 80.1%, GPQA 점수는 50.3%, Aider 다국어 인코딩 벤치마크 점수는 9.8%로 GPT-4o mini보다 훨씬 뛰어납니다!

GPT-4.1 mini는 여러 벤치마크 테스트에서 GPT-4o보다 성능이 뛰어나며, 속도는 두 배 빠르고 비용은 83% 저렴하여 효율성을 극대화했습니다!

플래그십 모델인 GPT‑4.1 은 더욱 강력해졌습니다.

가장 강력한 인코딩: GPT‑4.1은 SWE-bench Verified에서 54.6%의 점수를 받았으며, 이는 GPT‑4o보다 21.4%, GPT‑4.5보다 26.6% 향상된 수치입니다.

지침: Scale의 MultiChallenge에서 GPT‑4.1은 38.3%를 기록하여 GPT‑4o보다 10.5% 향상되었습니다.

긴 맥락: Video-MME에서 GPT‑4.1은 새로운 SOTA를 달성했습니다. 자막 없는 긴 비디오 부문에서 72.0%를 기록했으며, 이는 GPT‑4o보다 6.7% 향상된 수치입니다.

그 이후로, 울트라맨 더 리들러가 언급한 "퀘이사"가 마침내 확인되었습니다. 바로 GPT-4.1입니다!

더욱 강력하고 비용이 저렴한 GPT-4.1이 출시됨에 따라, 논란의 여지가 있는 GPT‑4.5 Preview는 3개월(7월 14일) 후 API에서 철수.

이에 대해 OpenAI는 GPT‑4.5가 원래 대규모의 계산 집약적 LLM을 탐색하고 실험하기 위한 연구 미리보기 버전으로 출시되었다고 밝혔습니다.

이 모델은 곧 중단될 예정이지만 OpenAI는 창의성, 글쓰기 품질, 유머 감각 등 개발자가 좋아하는 기능을 향후 API 모델에 계속 통합할 것입니다.

현장 데모 테스트

가장 중요한 것은 물론 프로그래밍 능력입니다.

이 데모에서 연구진은 GPT-4.1에 온라인 플래시카드 웹 애플리케이션을 만들어 달라고 요청했으며 매우 구체적인 요구 사항을 제시했습니다. 예를 들어, 플래시카드를 클릭하면 3D 애니메이션이 나타납니다.

GPT-4o가 이 작업을 수행하는 방식은 다음과 같습니다.

이에 비해 GPT-4.1은 컬러와 3D 애니메이션 모두에서 매우 원활하게 작동합니다.

처음부터 끝까지, 완전한 신청서를 받는 데는 단 하나의 프롬프트만 필요하다는 점에 유의하세요!

아래는 OpenAI Playground입니다. 이 시연에서 연구원은 GPT-4.1에 단일 Python 파일 코드 애플리케이션을 생성하도록 요청하여 오른쪽에서 사용자 쿼리를 시뮬레이션했습니다. 이 웹사이트는 대용량 텍스트 파일을 수신하고 관련 질문에 답변할 수 있습니다.

보시다시피, 이 모델은 수백 줄의 코드를 생성합니다. 연구자들이 실제로 이 코드를 실행했을 때, 그 결과는 예상 외로 좋았다는 것을 발견했습니다.

단지 힌트 하나로 이 웹사이트가 만들어졌습니다.

다음으로는 건초더미에서 바늘을 찾는 모습이 나와 있습니다.

연구원들은 1995년 8월 이후 NASA의 서버 요청 및 응답 로그 파일을 업로드했습니다.

이 파일의 왼쪽에는 NASA 서버에 요청을 한 클라이언트의 이름이 있습니다. 이것은 대량 로그 줄이 있는 긴 파일이며, 왼쪽에 약 450,000개의 토큰이 있습니다.

이 파일은 OpenAI의 이전 모델에서는 사용할 수 없습니다.

여기서 연구원은 실제로 HTTP 요청 응답이 아닌 줄을 몰래 추가했습니다. 스택 속의 이 작은 "바늘"은 발견하기 어렵습니다.

마침내 GPT-4.1이 성공했습니다!

연구원들은 이 줄이 실제로 자신들이 업로드한 로그 파일에 있다는 것을 확인했습니다.

OpenAI는 실제로 API 개발자가 모델을 어떻게 활성화하는지가 매우 중요하다고 강조합니다.

이 작업에서 GPT-4.1은 로그 분석 보조자 역할을 맡습니다. 연구자들은 어떤 데이터를 입력해야 하는지, 사용자 질의는 어떻게 구성해야 하는지 알려줍니다.

다음과 같은 몇 가지 규칙이 있습니다. 모델은 로그 데이터의 내용과 관련된 질문에만 답해야 하고, 질문은 항상 쿼리 태그 내에 형식을 지정해야 하며, 항목 중 하나가 사실이 아니면 오류 메시지로 응답해야 합니다.

다음으로 GPT-4.1을 소개하겠습니다.

연구자들은 fnal.gov에서 얼마나 많은 요청을 보내는지 물었습니다. 모델은 쿼리 태그 내부에 형식이 지정되지 않았기 때문에 이를 거부했습니다.

쿼리 태그 내에서 동일한 요청이 이루어지면 로그 파일에서 두 참조를 모두 찾을 수 있습니다.

이런 방식으로 개발자는 모델에 어떤 작업을 하지 말라고 명확하게 지시할 수 있는데, 이는 개발 과정에서 매우 의미 있고 중요한 세부 사항입니다. 즉, 부정적인 지침을 따르는 것입니다.

가격

가격 측면에서 GPT‑4.1은 GPT‑4o보다 26% 저렴하지만 입력 및 출력 가격은 여전히 ​​토큰 100만 개당 2달러와 8달러로 높습니다.

GPT‑4.1 nano는 현재 OpenAI에서 가장 저렴하고 빠른 모델로, 입력 비용은 0.1달러, 출력 비용은 0.4달러입니다.

동일한 컨텍스트를 재사용하는 쿼리의 경우, 이러한 새로운 모델은 힌트 캐시 할인율을 50%에서 75%로 높였습니다.

마지막으로, 긴 컨텍스트 요청은 추가 비용 없이 표준 토큰당 청구에 포함됩니다.

프로그래밍: OpenAI의 가장 강력한 모델이 탄생했습니다.

GPT-4o, o1, o3-mini 등의 모델과 비교했을 때, GPT-4.1은 프로그래밍 측면에서 큰 개선을 이루었습니다.

GPT-4o보다 다양한 프로그래밍 작업에서 훨씬 더 뛰어난 점이 분명합니다. 예를 들어, 지능형 에이전트를 사용해 프로그래밍 문제를 해결하고, 프런트엔드 개발이 용이하고, 불필요한 코드 수정을 줄이고, 다양한 형식을 엄격하게 준수하고, 도구 사용에서 일관성을 유지하는 등입니다.

실제 소프트웨어 엔지니어링 역량을 반영하는 테스트인 SWE-bench Verified에서 GPT-4.1은 작업의 54.6%를 완료한 반면, GPT-4o(2024-11-20)는 33.2%만 완료했습니다.

이는 GPT-4.1이 코드 베이스 탐색, 작업 완료, 테스트를 실행하고 통과할 수 있는 코드 생성 측면에서 큰 개선을 이루었다는 것을 보여줍니다.

SWE-bench Verified의 경우, 모델은 코드 저장소와 문제 설명을 받고 문제를 해결하기 위한 패치를 생성해야 합니다. 그 성능은 사용된 단서어와 도구에 크게 좌우됩니다.

대용량 파일을 편집하려는 API 개발자의 경우, 다양한 형식의 코드 차이점을 처리할 때 GPT-4.1이 훨씬 더 안정적입니다.

Aider 다국어 비교 벤치마크는 모델이 여러 프로그래밍 언어에서 인코딩하는 능력뿐만 아니라 전체 파일 형식과 다른 형식 모두에서 코드 변경을 생성하는 능력도 측정합니다.

이 부분에서 GPT‑4.1은 GPT‑4o보다 두 배 이상 높은 점수를 받았으며, GPT‑4.5보다 8% 더 높습니다.

이를 통해 개발자는 파일 전체를 다시 작성할 필요 없이 모델에서 변경된 줄만 출력하여 비용을 크게 절감하고 대기 시간을 줄일 수 있습니다.

파일 전체를 다시 쓰는 것을 선호하는 개발자를 위해 GPT‑4.1의 출력 토큰 제한도 32,768개(GPT‑4o의 경우 16,384개)로 늘어났습니다. 이 중 예측 출력 기능을 사용하면 전체 파일을 다시 쓰는 데 걸리는 대기 시간을 줄일 수 있습니다.

Aider의 다국어 벤치마크에서 이 모델은 소스 파일을 편집하여 Exercism의 코딩 연습 문제를 풀고 한 번의 재시도가 허용됩니다. "전체" 형식을 사용하려면 모델이 파일 전체를 다시 작성해야 하므로 속도가 느리고 비용이 더 많이 들 수 있습니다. "diff" 형식은 모델이 일련의 검색/바꾸기 블록을 작성하도록 요구합니다.

또한 GPT‑4.1은 GPT‑4o에 비해 프런트엔드 코딩 측면에서도 상당한 개선이 이루어져, 더욱 기능적이고 시각적으로 아름다운 웹 애플리케이션을 만들 수 있습니다.

직접 비교 평가에서 인간 심사위원은 80%의 확률로 GPT‑4o보다 GPT‑4.1로 생성된 웹사이트를 선호했습니다.

지휘 후속 조치: 현재 1단계에 있음

명령 수행 측면에서 OpenAI는 여러 차원에서 모델의 성능을 추적하는 내부 평가 시스템과 다음과 같은 주요 명령 수행 범주를 개발했습니다.

형식은 다음과 같습니다. 필수 사용자 정의 형식(예: XML, YAML, Markdown 등)으로 응답을 생성합니다.

부정적인 지시: 특정한 행동을 수행하지 마세요. (예: "사용자에게 지원팀에 문의하도록 요청하지 마세요")

순서화된 지침: 주어진 순서대로 일련의 작업을 수행합니다. (예: "먼저 사용자 이름을 묻고, 그 다음에 이메일 주소를 묻습니다.")

콘텐츠 요구 사항: 출력 콘텐츠에 구체적인 정보가 포함되어 있는지 확인하세요. (예: "영양 계획을 작성할 때는 단백질의 그램 수를 포함해야 합니다.")

순서: 출력을 특정 방식으로 정렬합니다. (예: "인구순으로 결과 순서")

과신을 식별하세요: 요청한 정보를 얻을 수 없거나 요청 내용이 지정된 범위를 넘어서는 경우, "모르겠습니다" 또는 이와 유사한 진술로 대답하세요. (예: "정답을 모르시면 지원팀에 문의할 수 있는 이메일을 입력해 주세요.")

이러한 카테고리는 개발자의 피드백을 바탕으로 결정되었으며 개발자들이 가장 관련성이 높고 중요하다고 생각하는 교육 차원을 반영합니다. 각 카테고리는 프롬프트 단어를 난이도에 따라 쉬움, 보통, 어려움의 세 가지 카테고리로 나눕니다.

어려운 프롬프트 단어를 처리할 때 GPT-4o와 GPT-4o 미니의 정확도는 30% 미만인 반면, 새로운 시리즈 중 가장 작은 나노는 32%에 이릅니다.

동시에 GPT-4.1은 49%에 도달하여 o1과 o3-mini를 따라잡았지만, GPT-4.5와는 여전히 거리가 있습니다.

평가 후 내부 지침은 실제 개발자의 사용 사례와 피드백을 기반으로 하며, 다양한 복잡도의 작업을 포괄하고 형식, 세부 수준, 길이 등에 대한 지침 요구 사항을 통합합니다.

많은 개발자에게 여러 차례 명령을 따르는 것은 매우 중요합니다. 즉, 대화가 진행되면서도 모델이 일관성을 유지해야 하고 사용자가 이전에 말한 내용을 기억해야 합니다.

GPT-4.1은 대화 기록 메시지에서 정보를 클레임 능력이 더 뛰어나 보다 자연스러운 상호작용이 가능합니다.

Scale AI가 실시한 MultiChallenge 벤치마크 테스트에서 GPT‑4.1은 o1과 GPT-4.5만큼 좋지는 않지만 o3-mini를 따라잡았고 GPT‑4o보다 10.5% 더 높은 성능을 보였습니다.

MultiChallenge 벤치마크에서 모델은 여러 라운드의 대화에서 이전 메시지의 4가지 유형의 정보(대화 맥락)를 올바르게 사용하는 과제를 받습니다.

또한, GPT‑4.1은 IFEval에서 87.4%의 점수를 받았고, GPT‑4o는 81.0%의 점수를 받았습니다. IFEval은 검증 가능한 지침(예: 콘텐츠 길이 지정 또는 특정 용어/형식 피하기)이 포함된 힌트 단어를 사용합니다.

IFEval에서 모델은 다양한 지침에 맞는 답변을 생성해야 합니다.

더욱 강력한 명령 수행 기능은 기존 애플리케이션의 안정성을 향상시킬 뿐만 아니라, 과거에는 모델 안정성이 부족해 구현하기 어려웠던 새로운 애플리케이션을 구현할 수 있게 해줍니다.

초기 테스터들은 GPT‑4.1이 문자적 지침을 더 따르는 경향이 있다고 보고했기 때문에 OpenAI에서는 프롬프트를 디자인할 때 명확하고 구체적으로 표현할 것을 권장합니다.

긴 맥락: 건초더미에서 바늘 찾기는 만점을 받는다

장기적인 맥락 이해는 법률, 코딩, 고객 지원 및 기타 여러 분야의 응용 프로그램에 중요한 역량입니다.

GPT‑4.1, GPT‑4.1 mini 및 GPT‑4.1 nano는 최대 100만 개의 토큰 컨텍스트를 처리할 수 있을 뿐만 아니라, 해당 콘텐츠를 안정적으로 처리하고 간섭 정보를 무시합니다.

100만 개의 토큰이라는 개념은 무엇인가요? 유추해보면, 여기에 포함된 콘텐츠의 양은 전체 React 코드베이스의 8배가 넘을 수 있습니다!

GPT‑4o의 128,000개 토큰과 비교하면 엄청난 개선입니다.

아래에서는 GPT‑4.1이 컨텍스트 창의 다양한 위치에서 작은 숨겨진 정보 조각(예: "바늘")을 검색하는 기능을 보여줍니다.

GPT‑4.1은 다양한 컨텍스트 길이와 최대 100만 개의 토큰까지의 모든 위치에서 "바늘"을 일관되고 정확하게 검색할 수 있습니다. 즉, 입력 내용의 어느 위치에 있든, 해당 작업에 필요한 관련 세부 정보를 효과적으로 클레임 할 수 있다는 의미입니다.

그러나 현실 세계의 업무는 단 하나의 눈에 띄는 "바늘"을 찾는 것만큼 간단하지 않습니다.

"건초더미 속의 바늘" 평가에서 GPT‑4.1, GPT‑4.1 mini 및 GPT‑4.1 nano는 모두 최대 100만 개의 토큰 컨텍스트에서 모든 위치에서 "바늘"을 성공적으로 회수했습니다.

오픈AI-MRCR

실제 응용 프로그램에서 사용자는 일반적으로 모델이 여러 정보를 검색하고 이해하고, 이러한 정보 간의 관계를 이해할 수 있기를 원합니다.

이를 위해 OpenAI는 긴 맥락에서 여러 개의 숨겨진 "바늘"을 찾고 구별하는 모델을 테스트하기 위한 새로운 벤치마크인 OpenAI-MRCR(Multi-Round Coreference)을 오픈 소스로 공개했습니다.

평가는 사용자와 보조자 간의 여러 차례의 합성 대화로 구성되며, 사용자는 모델에게 "코끼리에 대한 시를 쓰세요" 또는 "바위에 대한 블로그 게시물을 쓰세요"와 같은 주제에 대해 작문하도록 요청합니다.

다음으로, 내용은 비슷하지만 인스턴스가 다른 2개, 4개 또는 8개의 요청이 컨텍스트에 무작위로 삽입됩니다.

모델은 사용자가 지정한 특정 인스턴스에 해당하는 응답을 정확하게 검색해야 합니다(예: "코끼리에 대한 세 번째 시를 주세요").

이 과제의 어려움은 이러한 유사한 요청이 나머지 맥락과 매우 가깝다는 것입니다. 즉, 코끼리에 대한 단편 소설을 시로 착각하거나 개구리에 대한 시를 코끼리에 대한 시로 착각하는 것처럼 사소한 차이로 인해 모델이 쉽게 오도될 수 있습니다.

컨텍스트가 GPT‑4o 제한인 128,000개 토큰에 도달하면 GPT‑4.1의 성능이 상당히 향상됩니다. 컨텍스트 길이가 100만 토큰으로 확장되더라도 여전히 강력한 성능을 유지합니다.

OpenAI-MRCR에서 모델은 방해가 되는 콘텐츠 중에서 2개, 4개 또는 8개의 사용자 프롬프트를 구별하는 질문에 답해야 합니다.

그래프워크

Graphwalks는 멀티홉 장기 컨텍스트 추론을 평가하기 위한 데이터 세트입니다.

개발자를 위한 장기 컨텍스트 사용 사례의 경우, 코드를 작성할 때 여러 파일 간에 전환하거나 복잡한 법률 질문에 답할 때 문서를 교차 참조하는 등 컨텍스트에서 여러 번의 논리적 점프가 필요합니다.

모델(또는 사람)은 이론적으로 OpenAI-MRCR 문제를 맥락을 한 번 통과하거나 읽어서 해결할 수 있지만 Graphwalks는 맥락의 여러 위치에 대한 추론이 필요하도록 설계되었으며 순차적 처리로 해결할 수 없습니다.

Graphwalks는 16진수 해시 값의 방향 그래프로 컨텍스트 창을 채운 다음, 모델에 그래프의 무작위 노드에서 시작하여 너비 우선 탐색(BFS)을 수행하도록 요청합니다. 다음으로, 모델은 특정 깊이에 있는 모든 노드를 반환하라는 요청을 받습니다.

GPT‑4.1은 이 벤치마크에서 61.7%의 정확도를 달성하여 o1의 성능과 동일하며 GPT‑4o를 훨씬 능가합니다.

Graphwalks에서 모델은 큰 그래프에서 임의의 노드부터 너비 우선 탐색을 수행하도록 요청받습니다.

비전: 이미지 이해력이 GPT-4o를 능가하여 지배력을 발휘하다

GPT‑4.1 시리즈는 이미지 이해 능력이 매우 뛰어나며, 특히 GPT‑4.1 mini는 상당한 진전을 이루어 이미지 벤치마크에서 GPT‑4o보다 성능이 더 뛰어난 경우가 많습니다.

MMMU 벤치마크에서 모델은 차트, 다이어그램, 지도 등이 포함된 질문에 답해야 합니다.

MathVista 벤치마크에서는 시각적 수학 작업을 풀기 위해 모델이 필요합니다.

CharXiv-Reasoning 벤치마크에서는 모델에게 과학 논문의 그래프에 대한 질문에 답하도록 요구합니다.

긴 비디오를 처리하는 것과 같은 다중 모드 사용 사례에도 긴 컨텍스트 처리 기능이 중요합니다.

Video-MME(긴 영상, 자막 없음) 벤치마크에서 모델은 자막이 없는 30~60분 길이의 영상을 기반으로 객관식 질문에 답해야 합니다.

이 부분에서 GPT‑4.1은 다시 SOTA를 달성하여 72.0%를 기록했는데, 이는 GPT‑4o의 65.3%보다 높은 수치입니다.

Video-MME에서 모델은 자막이 없는 30~60분 길이의 비디오를 기반으로 객관식 질문에 답합니다.

전체 결과

학업적, 프로그래밍적, 교육적 추종, 장기적 맥락, 비전, 함수 호출에 대한 평가 결과는 아래에 전체적으로 나열되어 있습니다.

학문적 지식

프로그램 작성

따라야 할 지침

긴 맥락

비전

함수 호출

중국 투어 리더

지아후이 유

Jiahui Yu는 현재 Perception 팀을 책임지고 있으며, 그의 연구 분야는 딥 러닝과 고성능 컴퓨팅입니다.

그는 GPT-4o가 출시되었을 때 핵심 멤버 중 한 명이었습니다.

이전에 그는 Google DeepMind에서 Gemini 멀티모달 프로젝트를 공동으로 이끌었습니다.

그는 Microsoft Research Asia, Megvii Technology, Adobe Research, Snap Research, Jump Trading, Baidu Research, Nvidia Research, Google Brain에서 인턴십 경험을 쌓았습니다.

그는 중국 과학기술대학에서 컴퓨터 과학 학사 학위를 받았습니다. 일리노이 대학교 어바나-샴페인 캠퍼스 출신.

참고문헌:

https://openai.com/index/gpt-4-1/

https://x.com/OpenAI

본 기사는 위챗 공개 계정 "신지위안" 에서 발췌하였으며, 저자는 신지위안이고, 편집자는 HNZ 편집부이며, 36KRW의 저작권이 있습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트