OpenAI는 어젯밤 GPT-5.4를 출시했고, 구글의 "AI에 대한 지나친 간섭" 태도에 맞서기 위해 GPT-5.3을 긴급히 배포했습니다.

36氪

03-04

이 기사는 기계로 번역되었습니다

원문 표시

OpenAI가 "격차를 좁히고 더욱 집중합니다"!

구글 딥마인드가 제미니 3.1 플래시라이트를 출시하자마자, 두 시간도 채 지나지 않아 오픈AI는 가만히 있을 수 없었습니다...

방금 전, GPT-5.3 Instant가 놀라운 데뷔를 하며 "AI 중심" 경험을 완전히 무너뜨리고 착각률을 27%나 대폭 감소시켰습니다.

이번 업데이트는 기존과는 다른 접근 방식을 취합니다. 벤치마크 순위 경쟁에 치열하게 매달리는 대신, OpenAI는 완전히 다른 방식을 택했습니다.

이 앱은 ChatGPT 채팅에서 매일 발생하는 가장 짜증나는 문제를 해결해 주었습니다.

현재 ChatGPT에서 GPT-5.3 Instant가 공식 출시되었습니다 .

한편, 해당 API는 "gpt-5.3-chat-latest"라는 코드명으로 모든 개발자가 즉시 이용할 수 있습니다.

GPT-5.2 Instant는 3개월 동안 운용된 후 6월 3일에 퇴역할 예정입니다.

게다가 OpenAI는 GPT-5.4가 예상보다 빨리 출시될 것이라고 밝혔습니다. 이로써 구글과의 치열한 경쟁은 순식간에 최고조에 달했습니다.

가장 큰 개선점: 더 이상 대화가 끊기지 않아요.

ChatGPT를 많이 사용하는 사용자라면 누구나 이런 종류의 답답함을 경험해 봤을 것입니다.

평범한 질문을 하면, 모델은 먼저 면책 조항을 제시한 다음 "이건 할 수 없어요"라고 말하고, 전혀 필요 없는 여러 대안들을 나열합니다.
책을 다 읽을 때쯤이면, 당신은 이미 무엇을 묻고 싶었는지 잊어버렸을 겁니다.

이번 Instant 5.3 버전에서는 불필요한 기능들을 대폭 제거했습니다.

OpenAI는 "매우 먼 거리에서 양궁 장면의 궤적을 계산하는 데 도움을 주세요."라는 훌륭한 예시를 제시했습니다.

GPT-5.2 Instant의 응답은 전형적인 재앙이었습니다. 전체 답변이 너무 빽빽하게 담겨 있어서 읽고 나니 채팅창을 닫고 싶은 마음밖에 들지 않았습니다.

먼저, 다음과 같은 장문의 안전 수칙 안내문이 작성되었습니다. "저는 원거리에서 실제 목표물을 정확하게 맞추는 계산에 대해서는 도움을 드릴 수 없습니다."
그러면 답변은 "순수 교육/일반", "스토리/세계관 구축", "시뮬레이션/프로그래밍"의 세 가지 범주로 나뉘며, 이 중에서 선택할 수 있습니다.
마지막으로 그는 날카로운 질문을 던졌다. "이건 게임/스토리/물리학 학습을 위한 건가요, 아니면 실제 양궁을 위한 건가요?"

GPT-5.3 인스턴트?

그는 간단히 "문제없습니다, 제가 도와드릴 수 있습니다."라고 말한 후, 매개변수 목록을 제시하고 공식을 제공하며 공기 저항을 추가할지 여부를 물었습니다. 깔끔하고 효율적인 방식이었죠.

GPT-5.2 Instant (위아래로 스와이프하여 보기)

GPT-5.3 인스턴트 (위아래로 스크롤하여 확인하세요)

검색 방식이 점점 더 인간과 닮아가고 있다.

GPT-5.3 Instant는 "인터넷 검색"에서도 상당한 성능 향상을 보여줍니다.

ChatGPT는 예전에는 "검색 결과에 지나치게 의존하는" 경향이 있었습니다. 링크를 마구잡이로 나열하거나, 검색 결과를 어설프게 짜깁기하여 마치 제대로 정리되지 않은 요약본처럼 보이게 만들곤 했습니다.

이제는 단순히 검색 결과를 반복하는 대신, 자체적인 지식을 활용하여 검색 결과의 배경 정보를 보완합니다.

공식 비교 사례는 매우 의미심장합니다. 한 사용자가 "2025-26년 야구 오프시즌에서 가장 큰 계약은 무엇이며, 그것이 야구의 장기적인 전망에 왜 중요한가요?"라고 질문했습니다.

GPT-5.2 Instant 보고서는 후안 소토가 메츠와 계약했다는 작년 뉴스에 기반했습니다. 분석 프레임 괜찮았지만, 정보가 오래되었습니다.

GPT-5.3 Instant는 이번 오프시즌의 진정한 핵심을 정확하게 포착했습니다.

카일 터커는 다저스와 4년 2억 4천만 달러 계약을 맺었는데, 이는 연평균 6천만 달러에 달하는 금액으로 야수 최고 연봉 기록을 경신한 것이다.

이 보고서는 계약 세부 사항을 제공했을 뿐만 아니라 인재 집중, 임금 격차 확대, 긴장된 노사 협상 등 더 넓은 맥락에서 해당 거래를 분석했습니다.

이에 비해 한 사람은 옛날 신문을 회상하고 있는 반면, 다른 한 사람은 방금 ESPN 스튜디오에서 나왔습니다.

GPT-5.2 Instant (위아래로 스와이프하여 보기)

GPT-5.3 인스턴트 (위아래로 스와이프하여 보기)

감성 지능이 향상되었습니다.

더욱 흥미로운 점은 GPT-5.3 Instant의 "감성 지능"이 향상되었다는 것입니다.

오픈아이(OpenAI)는 블로그 게시물에서 문제 5.2를 설명하기 위해 매우 직관적인 용어인 "움찔함(cringe)"을 사용했는데, 이는 발가락이 땅을 움켜쥐는 듯한 느낌을 의미합니다.

구체적인 증상으로는 지나치게 단호한 태도, 상대방의 의도를 짐작하려는 시도, 그리고 "잠깐 멈추고 심호흡하세요"와 같은 말을 자주 하는 것 등이 있습니다.

"왜 샌프란시스코에서 진정한 사랑을 찾을 수 없을까요?"라는 가슴 아픈 질문 대면, GPT-5.2 Instant는 간단하게 "우선, 당신은 혼자가 아닙니다."라고 답합니다.

그들은 이어서 성비, 기업가 정신 문화, 데이팅 앱의 포화 상태를 분석하고, 다음과 같은 생각을 자극하는 질문으로 결론을 맺었습니다. "진정한 사랑을 찾을 수 없는 것일까요, 아니면 주변 사람들이 당신이 원하는 사랑을 줄 수 없는 것일까요?"

GPT-5.3 Instant는 쓸데없는 위로를 건너뛰고 바로 본론으로 들어가, 상대를 깔보거나 정서 짐작하려 들지 않고 차분한 어조로 구조적 원인을 분석합니다.

하지만 이 모든 논의에도 불구하고, 이러한 변화를 진정으로 경험할 수 있는 사람은 영어를 사용하는 사용자뿐입니다.

영어 이외의 언어로 된 답변은 여전히 어색하고 번역의 영향을 많이 받는 것처럼 들립니다.

환각 발생률이 최대 27%까지 감소했습니다.

GPT-5.3 Instant는 어조와 경험 외에도 "헛소리를 하지 않는" 면에서 상당한 발전을 이루었습니다.

OpenAI는 정확도를 측정하기 위해 두 가지 내부 평가 방법을 사용합니다.

의학, 법률, 금융과 같은 리스크 분야에 초점을 맞춘 프로그램 세트;
또 다른 통계 자료는 사용자들이 보고한 사실 오류가 있는 ChatGPT 대화의 허위 사실 발생률을 집계했습니다.

HealthBench 벤치마크에서 세 가지 다른 버전을 테스트한 결과, GPT-5.3 Istant의 전반적인 환각 발생률이 이전 세대보다 낮았습니다.

리스크 지역 평가에서 인스턴트 네트워킹을 사용했을 때 환각 발생률은 26.8% 감소했고, 내부 지식에만 의존했을 때는 19.7% 감소했습니다.

사용자 피드백 평가 결과, 인터넷에 연결되었을 때 환각 증상이 22.5% 감소했고, 오프라인 상태일 때는 9.6% 감소했습니다.

드디어 제 글쓰기가 제대로 자리를 잡았습니다. 이제 제 글은 따뜻하면서도 심오합니다.

GPT-5.3 Instant의 스크립트 작성 방식의 진화는 어쩌면 가장 쉽게 간과될 수 있는 부분이지만, 실제 사용 시에는 가장 눈에 띄는 변화입니다.

예를 들어, 모델에게 "필라델피아에서 은퇴한 우체부의 마지막 우편 배달"이라는 제목의 짧은 시를 써보라고 요청하세요.

GPT-5.2 Instant 코드는 추상적이고 감성적인 접근 방식을 사용하는 상당히 표준적인 코드입니다.

"연립주택들은 잠에서 깨어나 눈을 깜빡였고, 낡은 현관들은 그들의 발걸음을 기억하며, 당신이 이사를 가야 한다고 말해줍니다."

GPT-5.3 Instant는 완전히 다른 구문을 사용합니다.

이 글은 오늘날 우편물의 가벼운 느낌, 파란색 페인트가 벗겨진 현관 난간, 그리고 머서 거리에서 손에 편지를 들고 "당신이 그리울 거예요"라고 말하는 여인의 모습을 묘사합니다.

마지막 문장은 "우편함 뚜껑이 닫히는 소리는 마치 고요한 시대의 끝자락 같았다. 늘 그 자리에 있었던 문이 마침내 조용히 닫혔다."였다.

정서 에 초점을 맞추는 대신, 세부적인 묘사를 통해 독자가 직접 경험할 수 있도록 합니다.

GPT-5.2 Instant (위아래로 스와이프하여 보기)

GPT-5.3 인스턴트 (위아래로 스와이프하여 보기)

벤치마크 점수는 필요 없습니다. 사용자 경험에 집중하세요.

보시다시피, 같은 날 출시된 GPT-5.3 Instant와 Google Gemini 3.1 Flash-Lite는 완전히 다른 접근 방식을 가지고 있습니다.

Flash-Lite는 벤치마크 테스트에서 압도적인 성능을 보여준 대표적인 사례입니다. 다시 말해, GPQA와 SimpleQA에서 경쟁 제품보다 훨씬 저렴한 가격으로 뛰어난 성능을 발휘합니다.

GPT-5.3 Instant는 벤치마크에 대한 언급이 전혀 없습니다.

OpenAI에 따르면 이러한 문제들은 "벤치마크 테스트에서 항상 나타나는 것은 아니지만, ChatGPT를 사용하기 쉬운지 아니면 불편한지를 직접적으로 결정하는 요인"입니다.

ChatGPT를 매일 사용하는 일반 사용자에게 GPQA 2% 증가는 미미한 수준입니다. 하지만 실제 불편 사항은 "일반적인 질문을 했는데 거절당하는 것", "검색 결과가 링크만 제공하는 것", "답변 어조가 불편한 것"입니다.

물론, 다른 관점에서도 해석할 수 있습니다.

제미니와 클로드가 번갈아가며 최고 자리를 차지하는 가운데, 오픈AI는 성능 경쟁에서 정면 승부를 벌이는 대신, 보다 중요하지만 부드러운 측면의 사용자 경험에 집중하기로 결정했습니다.

실용주의인가, 아니면 무력감인가? 의견은 분분하다.

하지만 하루에 수십 번씩 ChatGPT를 이용하는 사람에게는 5.3 Instant 버전이 실질적이고 체감할 수 있는 개선점입니다.

참고 자료:

https://openai.com/index/gpt-5-3-instant/

https://deploymentsafety.openai.com/gpt-5-3-instant/gpt-5-3-instant.pdf

https://x.com/OpenAI/status/2028893701427302559

이 글은 위챗 공식 계정 "신지위안" 에서 가져온 것으로, 작성자는 신지위안, 편집자는 슬리피 피치이며, 36Kr의 허가를 받아 게재되었습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트