어제 OpenAI는 API 사용 규칙에 대한 조정을 발표했습니다.
앞으로 OpenAI의 최신 대형 모델에 접근하려면 인증된 신분증(즉, OpenAI가 지원하는 국가/지역 정부에서 발급한 신분증, 하나의 신분증으로는 90일마다 하나의 조직만 확인 가능)이 필요합니다. 검증을 통과하지 못하면 모델 사용에 영향을 미칩니다.
새로운 규정으로 인한 논란은 아직까지 가라앉지 않았습니다. OpenAI는 오늘 이른 아침에 GPT-4.1 시리즈 모델 3개를 출시했습니다. 하지만 이러한 기능은 API를 통해서만 사용할 수 있으며 ChatGPT에 직접 나타나지 않습니다.
GPT-4.1: 인코딩, 명령어 따르기, 장기 컨텍스트 이해에서 최고의 성능을 발휘하는 플래그십 모델로 복잡한 작업에 적합합니다.
GPT-4.1 미니: 여러 벤치마크에서 GPT-4o보다 성능이 뛰어나고 대기 시간은 거의 절반으로, 비용은 83%까지 줄이는 작고 효율적인 모델로, 효율적인 성능이 필요한 시나리오에 적합합니다.
GPT-4.1 nano: OpenAl 최초의 초소형 모델로 가장 빠르고 저렴하며, 100만 개의 토큰 컨텍스트 창을 갖추고 있어 분류 및 자동 완성과 같은 저지연 작업에 적합합니다.
모두가 OpenAI의 혼란스러운 명명 논리에 대비했음에도 불구하고 GPT-4.1은 여전히 네티즌들에게 비난을 받고 있습니다. OpenAI의 최고제품책임자 케빈 와일도 농담조로 "이번 주에는 우리의 명명 능력이 전혀 향상되지 않았어요."라고 말했습니다.
GPT-4.1 모델 카드 🔗 https://platform.openai.com/docs/models/gpt-4.1
프로그래밍 + 긴 글, GPT-4.1>GPT-4.5?
기술이 핵심입니다. 이름에 대한 비판이 있기는 하지만 GPT-4.1의 강점은 여전히 누구에게나 명백합니다.
OpenAI는 GPT-4.1 시리즈 모델이 여러 벤치마크에서 좋은 성능을 보이며 현재 사용 가능한 가장 강력한 프로그래밍 모델 중 하나라고 주장합니다.
복잡한 코딩 작업을 독립적으로 완료할 수 있음
프런트엔드 개발 역량 향상
불필요한 코드 수정을 줄이세요
diff 형식에 대한 더 나은 준수
도구 호출이 더 일관되고 안정적입니다.
OpenAI는 GPT-4.1을 "퀘이사"에 비유하기도 했는데, 이는 퀘이사처럼 AI 분야에 강력한 영향력과 에너지를 가지고 있다는 것을 의미합니다.
실제 소프트웨어 엔지니어링 역량을 평가하는 기준인 SWE-bench Verified 벤치마크 테스트에서 GPT-4.1은 54.6%의 성적을 기록했는데, 이는 GPT-4o 대비 21.4% 포인트, GPT-4.5 대비 26.6% 포인트 증가한 수치입니다.
GPT‑4.1은 diff 형식에 대해 특별히 훈련을 받았기 때문에 수정된 조각을 보다 안정적으로 출력하여 지연 시간과 비용을 절감할 수 있습니다. 또한 OpenAI는 전체 파일을 다시 작성해야 하는 필요성을 충족하기 위해 GPT‑4.1의 출력 토큰 한도를 32,768개로 늘렸습니다.
프런트엔드 개발 과제에서 OpenAI의 블라인드 테스트 결과에 따르면 평가자의 80%가 GPT-4.1로 생성된 웹 페이지를 선호하는 것으로 나타났습니다.
OpenAI는 또한 Windsurf의 창립자이자 CEO인 Varun Mohan을 초대하여 오늘 이른 아침 라이브 방송에서 자신의 경험을 공유했습니다. Varun은 자사의 내부 벤치마크 테스트 결과 GPT-4.1의 성능이 GPT-4보다 60% 더 우수하다고 밝혔습니다.
GPT-4.1의 탁월한 성능을 고려하여 Windsurf는 모든 사용자에게 GPT-4.1을 1주일 동안 무료로 체험해 볼 수 있는 기회를 제공하고, 이후에도 상당한 할인된 가격으로 해당 모델을 계속 제공하기로 결정했습니다 . 또한, 커서 사용자는 이제 GPT-4.1을 무료로 사용할 수 있습니다.
실제 대화, 특히 여러 라운드로 구성된 상호작용 작업에서 모델이 맥락에 맞는 정보를 기억하고 올바르게 참조하는 것이 중요합니다. Scale의 MultiChallenge 벤치마크에 따르면 GPT‑4.1은 GPT‑4o보다 10.5퍼센트 포인트 더 높습니다.
IFEval은 모델이 특정 규칙에 따라 콘텐츠를 출력할 수 있는지 평가하기 위한 명확한 지침(콘텐츠 길이 및 형식 제한 등)을 기반으로 하는 테스트 세트입니다. GPT-4.1은 여전히 GPT-4o보다 성능이 뛰어납니다.
멀티모달 장문 컨텍스트 벤치마크인 Video-MME의 자막 없는 장문 비디오 부문에서 GPT-4.1은 72.0%의 점수로 새로운 기록을 세웠으며, GPT-4o보다 6.7% 포인트 앞서 나갔습니다.
AI 상용화에 있어서 모델의 소형화는 불가피한 추세입니다.
"작지만 강력한" GPT‑4.1 미니는 여러 테스트에서 GPT‑4o를 능가했으며, GPT‑4o와 비슷하거나 더 높은 지능적 성능을 유지했으며, 지연 시간은 거의 반감 줄었고 비용은 83% 절감되었습니다.
OpenAI 연구원인 에이단 맥라플린은 GPT-4.1 미니/나노를 사용하면 훨씬 낮은 비용(25배 저렴)으로 GPT-4와 같은 품질의 기능을 구현할 수 있어 매우 비용 효율적이라고 밝혔습니다.
GPT‑4.1 nano는 OpenAI의 가장 빠르고 가장 저렴한 모델로, 낮은 지연 시간이 필요한 작업에 적합합니다.
또한 100만 개의 토큰에 대한 컨텍스트 창을 지원하고 MMLU, GPQA 및 Aider 다국어 프로그래밍 테스트에서 각각 80.1%, 50.3% 및 9.8%의 점수를 받았습니다. 이는 모두 GPT-4o mini보다 높으며 분류 및 자동 완성과 같은 가벼운 작업에 적합합니다.
하지만 GPT-4.1은 API를 통해서만 사용할 수 있으며 ChatGPT에 직접 나타나지 않습니다. 하지만 좋은 소식은 ChatGPT의 GPT-4o 버전이 GPT-4.1의 일부 기능을 조용히 통합했으며, 앞으로 더 많은 기능이 추가될 것이라는 점입니다.
GPT‑4.5 Preview는 2025년 7월 14일에 종료됩니다. 개발자 API의 핵심 모델도 점차 GPT-4.1로 대체됩니다.
공식적인 설명에 따르면, GPT-4.1은 성능, 비용, 속도 면에서 우수하며, 사용자들이 GPT-4.5에서 좋아했던 창의적인 표현, 텍스트 품질, 유머 감각, 섬세한 스타일은 향후 모델에서도 계속 유지될 예정입니다.
GPT-4.1은 형식 요구 사항, 콘텐츠 제어, 복잡한 다단계 작업, 심지어 여러 차례의 대화에서 일관성을 유지하는 등 지침을 이해하는 측면에서도 업그레이드되었으며, 더 나은 성과를 거두었습니다.
긴 텍스트는 GPT-4.1 시리즈의 하이라이트입니다. 최대 100만 개의 토큰에 달하는 초장문 컨텍스트 처리 기능을 지원하는데, 이는 React 소스 코드 8세트 전체 또는 수백 페이지 분량의 문서에 해당하며, GPT-4o의 128,000개 토큰을 훌쩍 뛰어넘습니다. 대규모 코드 기반 분석 및 다중 문서 검토와 같은 작업에 적합합니다.
"건초더미 속의 바늘" 테스트에서 GPT-4.1은 매우 긴 컨텍스트 정보를 정확하게 검색했으며 GPT-4o보다 더 나은 성능을 보였습니다. 검색 테스트에서 유사한 요청과 교차 위치 추론을 구분하는 능력이 더 뛰어나 정확도가 62%에 달해 GPT-4o의 42%를 훌쩍 넘어섰습니다.
매우 긴 컨텍스트를 지원함에도 불구하고 GPT-4.1의 응답 속도는 느리지 않습니다. 128K 토큰 요청은 약 15초가 걸리고, 나노 모델은 5초도 걸리지 않습니다. OpenAI는 또한 프롬프트 캐시 메커니즘을 최적화하여 할인율을 50%에서 75%로 늘려 사용 비용을 절감했습니다.
오늘 이른 아침 라이브 데모 세션에서 OpenAI는 두 가지 사례를 통해 GPT-4.1의 강력한 장기 컨텍스트 처리 기능과 엄격한 명령어 따르기 기능을 완벽하게 시연했습니다. 이는 개발자에게도 매우 실용적인 사용 시나리오가 될 수 있습니다.
첫 번째 사례에서, 시연자는 GPT-4.1을 이용해 대용량 텍스트 파일을 업로드하고 분석할 수 있는 웹사이트를 만든 다음, 새로 만든 웹사이트를 이용해 1995년 8월의 NASA 서버 요청 로그 파일을 업로드했습니다.
시연자는 비표준 HTTP 요청 레코드 줄을 이 로그 파일에 "비밀스럽게" 삽입하고 GPT-4.1에 전체 파일을 분석하여 이 비정상적인 레코드를 찾아달라고 요청했습니다. 그 결과, 이 모델은 약 45만 개의 토큰이 있는 파일에서 비정상적인 기록 줄을 성공적으로 찾아냈습니다.
두 번째 경우, 발표자는 모델이 로그 분석 도우미 역할을 할 수 있도록 시스템 메시지를 설정하여 입력 데이터가 <log_data> 태그 내에 있어야 하고 사용자 질문이 <query> 태그 내에 있어야 한다고 규정합니다.
발표자가 <query> 태그 없이 질문을 했을 때, 모델은 대답을 거부했습니다. 태그를 올바르게 사용하면 모델은 로그 파일에 대한 질문에 정확하게 답할 수 있습니다. 반면, 이전 GPT-4o는 이러한 규칙과 제한을 무시하고 질문에 직접 답변했습니다.
간단히 말해서, GPT-4.1의 핵심 장점으로는 매우 긴 컨텍스트 지원, 강력한 검색 추론, 탁월한 다중 문서 처리, 낮은 지연 시간과 높은 성능, 그리고 높은 비용 효율성이 있습니다. 법률, 금융, 프로그래밍 등의 시나리오에 적합하며 코드 검색, 스마트 계약 분석, 고객 서비스 등의 작업에 이상적인 선택입니다.
OpenAI의 진짜 비결은 파인만처럼 생각할 수 있는 추론 모델이다
OpenAI는 아직 공식적으로 o3를 출시하지 않았지만, 이미 몇 가지 소식이 나왔습니다.
The Information에 따르면, 해당 테스트에 정통한 세 명의 관계자를 인용한 바에 따르면, OpenAI가 이번 주에 출시할 예정인 새로운 AI 모델은 여러 학문 분야의 개념을 통합하고 핵융합에서 병원균 탐지에 이르기까지 새로운 실험 아이디어를 제안할 수 있을 것이라고 합니다.
OpenAI는 작년 9월 추론에 중점을 둔 모델을 처음 출시했습니다. 이러한 유형의 모델은 수학적 정리와 같은 검증 가능한 문제를 다룰 때 특히 좋은 성능을 발휘합니다. 생각하는 시간이 길어질수록 효과가 더 좋습니다.
Scaling Law가 병목 현상에 부딪히면서 OpenAI는 연구 및 개발의 초점을 추론으로 전환했습니다. 회사는 앞으로 박사급 연구를 지원하기 위해 최대 2만 달러(14만 위안) 규모의 월 구독 서비스를 제공할 수 있을 것으로 보고 있습니다.
테슬라나 과학자 파인만과 같은 이러한 추론 모델은 생물학, 물리학, 공학 등 여러 분야의 지식을 통합하여 고유한 통찰력을 제공할 수 있습니다. 사실, 이런 종류의 학제간 성과를 이루려면 시간이 많이 걸리고 힘든 팀워크가 필요하지만, OpenAI의 새로운 모델은 비슷한 작업을 독립적으로 완료할 수 있습니다.
ChatGPT의 "심층 연구" 도구는 웹 페이지 탐색과 보고서 구성을 지원하여 과학자들이 문헌을 요약하고 새로운 실험 방법을 제안할 수 있도록 하여 이 분야에서의 잠재력을 보여줍니다. 한 테스터에 따르면, 과학자들은 이 AI를 사용하여 다양한 과학 분야의 공공 문헌을 읽고, 기존 실험을 요약하고, 아직 시도되지 않은 새로운 방법을 제안할 수 있습니다.
기존의 추론 모델 역시 과학 연구의 효율성을 크게 향상시켰습니다.
인포메이션에서는 일리노이주 아르곤 국립 연구소의 분자 생물학자인 사라 오웬스의 사례를 인용했는데, 그녀는 o3-미니-하이 모델을 사용하여 생태학 관련 기술을 적용한 실험을 신속하게 설계하여 하수 병원균을 탐지하고 며칠을 절약했습니다.
화학자 마시밀리아노 델페로는 AI를 사용하여 플라스틱 분해 실험을 설계하고, 온도와 압력 범위를 포함한 완전한 계획을 얻었으며, 효율성은 기대치를 훨씬 뛰어넘었습니다. 올해 2월 "AI 즉흥 실험"에서 테스터들은 o1-pro와 o3-mini-high를 사용하여 특정 지역에 발전소나 광산을 건설할 경우 발생할 수 있는 환경 영향을 평가했고, 그 결과는 기대치를 훨씬 뛰어넘었습니다.
보도에 따르면, 테네시주 오크리지 국립연구소에서 열린 실험 행사에서 OpenAI 사장인 그렉 브록먼은 9개 연방 연구소 소속의 수천 명의 과학자들에게 다음과 같이 말했습니다.
"우리는 AI가 중요한 과학적 문제에 대해 '열심히 생각하는' 대량 시간을 할애하는 추세로 나아가고 있으며, 이로 인해 앞으로 몇 년 안에 여러분의 효율성이 10배, 심지어 100배까지 높아질 것입니다."
현재 OpenAI는 로스앨러모스 국립연구소의 슈퍼컴퓨터에 호스팅된 추론 모델을 사용하기 위해 여러 국립연구소에 대한 민간 접근을 제공하기로 약속했습니다.
그러나 이상은 충만하지만 현실은 빈약합니다. 많은 경우, AI가 제시하는 제안과 과학자들이 이러한 아이디어를 검증하는 능력 사이에는 여전히 차이가 있습니다. 예를 들어, 모델은 특정 양의 에너지를 전달하기 위해 레이저 강도를 제안할 수 있지만 여전히 시뮬레이터에서 검증이 필요합니다. 화학이나 생물학과 관련된 제안은 실험실 테스트가 필요합니다.
OpenAI 역시 Operator라는 AI 에이전트를 출시했지만, 잦은 오류로 비판을 받았다.
이 문제에 정통한 관계자에 따르면, OpenAI는 "인간 피드백을 기반으로 한 강화 학습"(RLHF)을 통해 성능을 개선하고, 실제 사용자 사용 데이터를 기반으로 실패 사례를 검토하고, 성공적인 사례를 통해 운영자를 교육할 계획입니다.
Amazon AGI SF 연구소장이자 전 OpenAI 엔지니어링 디렉터인 데이비드 루안은 흥미로운 관점을 제시합니다. 그는 추론 모델이 등장하기 전에는 기존 AI 모델이 "새로운 수학적 정리를 발견했다면" 훈련 데이터에 없다는 이유로 "처벌"을 받았다고 말했습니다.
또한, OpenAI는 더욱 진보된 프로그래밍 에이전트도 개발하고 있습니다. OpenAI의 CFO인 Sarah Friar는 올해 3월 런던에서 열린 Goldman Sachs Summit에서 다음과 같이 밝혔습니다.
"다음으로 출시할 제품은 A-SWE입니다. 참고로, 저희 마케팅 실력이 최고는 아닙니다. (웃음) A-SWE는 'Agentic Software Engineer'의 약자입니다."
그녀는 A-SWE가 지금의 Copilot처럼 단순히 팀 내 소프트웨어 엔지니어의 보조자가 아니라, 당신을 위해 독립적으로 애플리케이션을 개발할 수 있는 진정한 "자율 기능"을 갖춘 소프트웨어 엔지니어라고 말했습니다.
일반 엔지니어에게 하듯이 PR(풀 리퀘스트)만 제출하면 전체 개발 프로세스를 독립적으로 완료할 수 있습니다.
"개발을 완료할 뿐만 아니라 엔지니어들이 가장 싫어하는 모든 작업도 처리할 수 있습니다. 자체적으로 QA(품질 보증), 버그 테스트 및 수정, 문서 작성 등 엔지니어가 스스로 하기 어려운 작업들을 처리할 수 있습니다. 따라서 엔지니어링 팀의 전투 효율성이 크게 향상될 것입니다."
한편, GPT-4.1과 같은 모델은 매우 긴 컨텍스트와 정확한 명령어 따르기 기능을 통해 그 어느 때보다 더 복잡한 작업을 처리할 수 있습니다. 반면, 추론 모델과 자율 에이전트는 기존 AI의 한계를 깨고 진정한 자율적 사고 능력을 향해 나아가고 있습니다.
본 기사는 WeChat 공개 계정 "APPSO" 에서 발췌하였으며, 작성자는 APPSO이고, 36Kr.의 출판 허가를 받았습니다.



