결정적인 한 방: OpenAI가 최초의 GPT-5 수준 오디오 추론 모델 출시로 인간의 청각 영역을 공식적으로 장악했습니다.

avatar
36氪
05-12
이 기사는 기계로 번역되었습니다
원문 표시

[서론] 결정적인 한 방! 오픈아이얼, 최초의 GPT-5 레벨 추론 오디오 모델 GPT-Realtime-2 출시. 오픈아이얼이 공식적으로 인간의 청각 영역을 장악합니다. 인간과 기계 사이의 마지막 "방화벽"이었던 키보드가 완전히 사라지고 있습니다.

오늘 새벽, 오픈AI는 또 한 번 세계를 놀라게 했습니다.

이번에는 텍스트나 영상에 초점을 맞추지 않고, 영화 "그녀"에 등장하는 인공지능 사만다를 현실로 가져올 예정입니다. 사만다는 수많은 사람들을 놀라게 하고 슬프게 했습니다.

OpenAI는 GPT-Realtime-2 의 공식 출시를 발표했습니다.

이는 단순히 오디오 모델을 업그레이드한 것이 아니라, OpenAI가 음성 상호작용에 "GPT-5 수준"의 추론 능력을 명시적으로 도입한 최초의 사례입니다.

이와 함께 GPT 실시간 번역 및 GPT 실시간 속삭임 기능도 제공됩니다.

OpenAI 공식 블로그에서 언급했듯이, "음성은 사람들이 소프트웨어를 사용하는 가장 자연스러운 방식이 되어가고 있습니다."

오늘날 OpenAI는 이러한 자연스러운 상태를 포괄적인 시스템으로 변화시키는 것을 목표로 합니다.

"GPT-5 수준" 추론 기술 도입: 음성 비서에게 드디어 "지능"이 생겼다!

시리나 알렉사를 놀리던 때를 떠올려 보세요. 가장 큰 불만은 무엇이었나요? "잘 못 알아듣는다"거나 "멍청하다"는 것이었나요?

대부분의 경우 후자에 해당합니다. 그들은 단어를 또렷하게 들을 수는 있지만, 사람의 말을 이해하지는 못합니다. "누구누구에게 전화하기"와 같은 단순한 작업만 수행할 수 있으며, 복잡한 논리적 상황에 얽히게 되면 악순환에 빠지게 됩니다.

GPT-Realtime-2는 이러한 시대를 완전히 종식시켰습니다.

이는 GPT-5 수준의 추론 능력을 갖춘 세계 최초의 오디오 모델입니다. 즉, 사용자가 이 모델과 대화할 때 단순히 "말을 반복하는" 역할만 하는 것이 아니라 실시간으로 사고하는 협력자가 된다는 의미입니다.

이것이야말로 진정한 "사고"입니다.

GPT-Realtime-2는 추론 강도를 조절할 수 있는 기능(최소부터 매우 높음까지 5단계)을 도입했습니다.

최상위 추론 모드에서는 논리 퍼즐, 전략적 의사 결정 및 공간 인식 분야에서 거의 무서울 정도로 뛰어난 성능을 발휘합니다.

OpenAI가 제시한 사례 연구 중 하나에서 한 기업가는 통근 열차역 옆에 커피숍을 여는 아이디어를 설명했습니다. 900제곱피트(약 84제곱미터)의 공간, 비싼 임대료, 화요일부터 목요일까지의 피크 시간대, 그리고 예술적인 슬로우 드립 커피였습니다.

이전에는 AI가 "정말 멋지네요, 계속 그렇게 하세요!"라고만 말했습니다.

현재 GPT-Realtime-2는 잠시 멈추고 생각한 다음 자세한 "사후 검토"를 제공합니다.

1년 안에 사업을 접게 된다면, 임대료와 고객 유입 주기 사이의 불일치 때문일 가능성이 가장 높다고 알려줄 겁니다. 그리고 "최소 기능 제품(MVP)"을 먼저 시도해 보라고 제안할 겁니다. 예를 들어, 편의점이나 카페 같은 곳에 커피 카트를 설치해 보는 것처럼 말이죠.

이전에는 이러한 전략적 추론이 복잡한 텍스트 대화에서만 가능했습니다. 하지만 이제는 운전 중에 간단히 대화를 나누면서도 오디오 스트리밍을 통해 단 몇 초 만에 동일한 수준의 심층적인 통찰력을 얻을 수 있습니다.

"뛰어난 대인관계 기술": 정서 가치 극대화

가장 소름 끼치는 것은 바로 음색 조절 능력입니다. GPT-Realtime-2는 더 이상 차갑고 무미건조한 방송인의 목소리가 아닙니다.

이 기기는 사용자의 정서 감지할 수 있습니다. 사용자가 좌절감을 느낄 때는 더욱 공감적이고 부드러운 어조로 위로해 주고, 작업을 성공적으로 완료하면 쾌활하고 활기찬 목소리로 말해줍니다.

공간 추론을 수행할 수 있습니다.

논리 퍼즐도 풀 수 있습니다.

GPT-5 수준의 추론 능력은 그만큼 다재다능합니다.

OpenAI는 AI가 작업을 처리할 때 느끼는 "고독함" 문제를 해결하기 위해 "서문" 기능을 추가했습니다.

예를 들어, 매우 어려운 질문을 했을 때, 시스템은 5초 동안 머뭇거리다가 갑자기 답을 주는 대신, "확인해 보겠습니다. 잠시만 기다려 주세요."와 같은 자연스러운 안내를 제공할 것입니다.

이처럼 인간과 매우 유사한 상호작용적인 디테일들은 탄소 기반 생명체와 실리콘 기반 생명체 사이의 경계를 모호하게 만듭니다!

삼총사가 힘을 발휘하다: "실시간"의 재정의

OpenAI는 강력한 GPT-Realtime-2 외에도 두 가지 강력한 도구를 추가로 탑재했습니다.

GPT 실시간 번역: 최고의 동시 통역 도구가 드디어 출시되었습니다!

70개 이상의 입력 언어와 13개 출력 언어를 지원합니다.

이 기술의 핵심 장점은 "동기식 전달"에 있습니다. 기존의 실시간 번역은 종종 눈에 띄는 지연 현상이 있었지만, 이 새로운 모델은 화자의 말 속도를 따라가면서 감정적 뉘앙스까지 보존할 수 있습니다.

Vimeo는 이미 제품 사용법 영상의 실시간 글로벌 동기화를 위해 이 기술을 사용하기 시작했습니다. 미래에 다국적 회의에 참석했을 때, 들리는 번역이 정확할 뿐만 아니라 상대방의 농담 어조까지 완벽하게 전달된다고 상상해 보세요.

GPT-Realtime-Whisper: 지연 시간을 획기적으로 줄임

이 제품은 Whisper 제품군의 최신 멤버로, 특히 스트리밍 음성 인식 에 최적화되어 있습니다. 문장을 끝맺을 때까지 기다리지 않고, 말하는 즉시 물 흐르듯 텍스트가 출력됩니다.

이는 실시간 회의 녹화, 라이브 스트리밍 자막, 의료 진단과 같은 빈번한 상호작용 시나리오에 혁신적인 변화를 가져올 것입니다.

"대화"에서 "행동"으로: 에이전트의 궁극적인 형태

OpenAI는 발표문에서 "에이전트"라는 단어를 여러 차례 언급했습니다.

OpenAI에 따르면 음성 상호작용은 단순한 "질문과 답변"에서 "음성으로 작동하는 동작"으로 진화하고 있습니다.

예를 들어, 부동산 대기업인 질로우(Zillow)에서 사용자는 "도심에서 멀리 떨어진, 내가 감당할 수 있는 가격의 집을 찾아주시고, 토요일에 집을 볼 수 있도록 일정을 잡아주세요."라고 간단히 말할 수 있습니다. 인공지능이 사용자의 말을 듣고 계산하여 데이터베이스를 검색한 후, 최종적으로 일정을 예약해 줍니다.

프라이스라인에서는 항공편이 지연될 경우 AI가 음성으로 "걱정하지 마세요. 새로운 게이트를 찾았고, 가장 빠른 경로를 계획했으며, 도착 호텔의 체크인 시간까지 앞당겨 드렸습니다."라고 알려줍니다.

GPT-Realtime-2가 자신감을 갖는 이유는 바로 컨텍스트 창을 32KB에서 128KB로 확장했기 때문입니다. 즉, 몇 시간 동안 대화를 나누더라도 처음에 했던 다소 모호한 요청까지 기억할 수 있다는 뜻입니다.

이 앱은 여러 작업을 동시에 처리할 수 있는 도구를 병렬로 호출하는 기능을 갖추고 있습니다. 사용자와 대화하고, 캘린더를 확인하고, 티켓을 예매하는 등 모든 작업을 동시에 원활하게 백그라운드에서 처리할 수 있습니다.

성능과 비용: OpenAI의 "개방형 전략"

데이터 성능 측면에서 GPT-Realtime-2는 압도적인 우위를 보여줍니다.

오디오 지능 측정 지표인 Big Bench Audio에서 버전 1.5보다 15.2% 더 높은 수치를 기록했습니다.

오디오 멀티챌린지(다중 턴 대화에서 지시를 따르는 능력을 측정하는 지표)에서 13.8% 향상되었습니다.

더 중요한 것은 가격입니다.

GPT-Realtime-2는 입력 토큰 백만 개당 32달러, 출력 토큰 하나당 64달러의 비용이 듭니다.

실시간 번역 비용은 분당 0.034달러에 불과합니다.

실시간 녹취 비용은 분당 0.017달러에 불과합니다.

이 가격은 분명히 매우 경쟁력 있는 가격입니다.

OpenAI는 이러한 "GPT-5 수준"의 음성 인식 기능을 마치 수돗물처럼 모든 휴대폰, 모든 앱, 모든 자동차에 API를 통해 통합하려고 시도하고 있습니다.

안녕하세요, 사만다님.

영화 '그녀'의 마지막 장면에서 주인공 시어도어는 인공지능 사만다에게 "나랑 얘기하면서 다른 사람이랑도 얘기하고 있는 거야?"라고 묻습니다. 사만다는 "응, 지금 8,316명이랑 동시에 채팅하고 있고, 그중 641명이랑 사랑에 빠졌어."라고 답합니다.

GPT-Realtime-2의 출시로, 방대한 양의 논리를 동시에 처리하고, 깊은 감정적 공감을 가지며, 실시간으로 현실 세계에 개입하여 행동할 수 있는 인공지능은 더 이상 공상 과학 소설이 아닙니다.

이 프로그램은 사용자의 한숨을 이해하고, 재무제표를 계산하며, 언어 장벽을 극복하는 데 도움을 줄 수 있습니다.

추론 능력이 실시간 음성과 완벽하게 통합될 때, 우리는 인간-컴퓨터 상호작용 역사상 가장 근본적인 혁명의 문턱에 서게 될지도 모릅니다.

키보드는 낡아질 수 있지만, 목소리는 영원히 살아남을 것입니다.

참고 자료:

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

https://developers.openai.com/api/docs/guides/realtime

이 글은 위챗 공식 계정 "뉴 인텔리전스" 에서 Aeneas가 작성하고 36Kr의 허가를 받아 게시한 글입니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트