OpenAI는 가장 강력한 GPT-RealTime을 통해 음성 모델 전쟁에 참여하여 용량을 늘리고 가격을 인하했습니다.

avatar
36氪
08-29
이 기사는 기계로 번역되었습니다
원문 표시

지둥시(Zhidongxi)에 따르면, 8월 29일 이른 아침, OpenAI는 개발자를 위해 구축된 음성 대 음성 모델인 GPT-RealTime 을 출시하고 원격 MCP 서버 지원, 이미지 입력, SIP(Session Initiation Protocol) 전화 통화 지원 등의 API 기능을 동시에 업데이트했습니다.

OpenAI는 이것이 지금까지 가장 진보된 음성 합성 모델이라고 주장하며, GPT-RealTime은 복잡한 지시를 따르고, 도구를 정확하게 호출하며, 더욱 자연스럽고 표현력이 풍부한 음성을 생성하는 데 있어 향상되었습니다. 이 모델은 반복되는 문자와 숫자를 자연스럽게 암송하고, 언어를 매끄럽게 전환하며, 웃음과 같은 비언어적 신호까지 포착할 수 있습니다.

오늘 OpenAI는 Realtime API에서만 독점적으로 사용할 수 있는 두 가지 새로운 음성인 Cedar와 Marin을 출시했습니다.

가격 측면에서, Realtime API의 일반 버전과 새로운 GPT-RealTime 모델은 오늘부터 모든 개발자에게 공개됩니다. GPT-RealTime의 가격은 오디오 입력 토큰 백만 개당 미화 32달러(약 228위안) , 캐시된 입력 토큰 백만 개당 미화 0.4달러(약 2.85위안), 오디오 출력 토큰 백만 개당 미화 64달러(약 456위안) 입니다. GPT-RealTime의 가격은 gpt-4o-realtime-preview보다 20% 저렴합니다 .

OpenAI는 대화 맥락에 대한 세부적인 제어 기능을 추가하여 개발자가 스마트 토큰 제한을 설정하고 여러 차례를 한 번에 잘라낼 수 있도록 함으로써 긴 대화의 비용을 크게 줄일 수 있게 되었습니다.

작년 10월, OpenAI는 Realtime API의 공개 베타 버전을 출시했으며, 그 이후로 수천 명의 개발자가 이 API를 사용하고 제안을 했습니다.

하지만 OpenAI가 소셜 플랫폼 X에 남긴 코멘트를 보면, 일부 사용자는 새로운 모델에 대한 기대감이 큰 것으로 보이며, 음성 애플리케이션이 더욱 흥미로워질 것이라고 말했지만, 일부 개발자는 이 모델의 음성이 여전히 로봇처럼 들리고, 기존 음성 캐릭터의 표현력이 살짝 더 풍부해질 뿐이라고 말했습니다.

음성 모델 측면에서는 국내외적으로 발전이 가속화되고 있습니다. 이달 초, 중국 6대 음성 모델 개발사 중 하나인 미니맥스(MiniMax)는 40개 이상의 언어를 지원하는 음성 생성 모델인 Speech 2.5를 출시했습니다. 올해 초에는 더우바오(Doubao) 앱도 실시간 음성 통화 기능을 업데이트하여 현재 무료로 이용할 수 있습니다. 이 기능은 다양한 음성을 모방하고 정서 감지할 수 있습니다. OpenAI와 같은 날, 마이크로소프트는 동일한 프롬프트에 기반하여 다양한 해석의 오디오를 생성할 수 있는 최초의 표현력 있고 자연스러운 음성 생성 모델인 MAI-Voice-1을 출시했습니다.

01. 집 구매, 티켓 구매, 병원 예약 등 친구처럼 대화 가능

OpenAI는 블로그에 음성 비서를 구축하기 위해 5개 회사와 협업한 사례를 공개했습니다.

첫 번째는 미국의 부동산 정보 서비스 플랫폼인 질로우(Zillow)입니다. OpenAI의 새로운 모델은 자연어 사용자와 대화하여 라이프스타일 니즈에 따라 부동산을 검색하거나 구매 가격 등을 분석하는 데 도움을 줄 수 있습니다.

두 번째로, T-Mobile의 모바일 비서인 AI 비서는 대화를 빠르게 전환할 수 있으며, 사용자가 문장 중간에 끼어들어 새로운 주제를 시작하더라도 영향을 받지 않습니다.

세 번째는 티켓 구매 및 판매 플랫폼 StubHub입니다. OpenAI의 새로운 모델은 사용자의 결제를 지원하고 결제 과정에서 발생하는 문제를 해결합니다.

네 번째는 사용자가 전화로 의사와 예약할 수 있도록 돕는 것입니다. Oscar Health 플랫폼에서 이 새로운 모델은 사용자가 예약 가능 시간, 예약 주의사항, 그리고 예약 주소를 확인하는 데 도움을 줄 수 있습니다.

마지막으로, 보험 기술 회사인 레모네이드(Lemonade)가 있습니다. 사용자가 자동차 구매 시 보험 관련 문제에 직면하면, AI 비서가 사용자에게 구매 지원을 제공하고, 대화 중에 사용자의 요구사항을 파악한 후, 내부에 저장된 사용자의 개인 정보와 은행 카드 정보를 기반으로 구매 작업을 수행합니다.

02. 웃음을 포착하고, 언어를 원활하게 전환하고, 톤을 조정하세요

OpenAI는 사용자 지침을 이해하고 지침을 따르도록 GPT-RealTime의 오디오 품질을 개선했습니다.

음성 에이전트가 지속적인 대화를 가능하게 하려면, 모델은 인간과 같은 억양, 감정, 리듬을 가져야 즐거운 대화 경험을 제공할 수 있습니다. 블로그 게시물에서는 GPT-RealTime이 더욱 자연스럽고 고품질의 음성을 생성하고 "빠르고 전문적으로 말하세요" 또는 "프랑스어 억양으로 공감하며 말하세요"와 같은 세밀한 지시를 따를 수 있다고 언급했습니다.

사용자 명령 이해 측면에서 GPT-RealTime은 웃음과 같은 비언어적 신호를 포착하고, 문장의 언어를 전환하고, 어조를 조정할 수 있습니다 . OpenAI의 내부 평가에 따르면, 이 모델은 스페인어, 중국어, 일본어, 프랑스어 등의 언어에서 전화번호와 같은 영숫자 시퀀스를 감지하는 데도 더 정확합니다.

Big Bench Audio 평가에서 GPT-RealTime은 82.8% 의 정확도를 달성하여 2024년 12월에 출시된 OpenAI의 기존 모델을 능가했습니다. Big Bench Audio 벤치마크는 오디오 입력을 지원하는 언어 모델의 추론 능력을 평가하기 위한 평가 데이터 세트입니다.

음성 대 음성 애플리케이션을 개발할 때 개발자는 모델에 말하는 방법, 특정 상황에서 무엇을 말해야 하는지, 무엇을 해야 하고 무엇을 하지 말아야 하는지 등 일련의 행동 지침을 제공합니다. OpenAI는 모델이 이러한 지침을 얼마나 잘 따르는지 개선하는 데 중점을 두어, 작은 지침이라도 모델에 더 많은 정보를 전달할 수 있도록 합니다.

명령 수행 정확도를 측정하는 MultiChallenge 오디오 벤치마크에서 GPT-RealTime은 30.5%의 점수를 달성하여 이전 모델의 20.6%에 비해 크게 향상되었습니다. MultiChallenge는 대규모 모델이 사람과의 여러 차례 대화하는 상황을 얼마나 잘 처리하는지 평가합니다. OpenAI는 오디오 프레젠테이션에 적합한 테스트 문제 일부를 선택하여 텍스트 음성 변환(TTS)을 통해 음성으로 변환한 후, 이 평가의 오디오 버전을 제작했습니다.

음성-대-음성 모델을 사용하여 강력한 음성 에이전트를 구축하려면 모델이 적절한 도구를 적절한 시점에 호출 할 수 있어야 합니다. OpenAI는 관련 함수 호출, 적절한 시점에 함수 호출, 적절한 매개변수를 사용한 함수 호출의 세 가지 측면에서 함수 호출을 개선했습니다. 함수 호출 성능을 측정하는 ComplexFuncBench 오디오 평가에서 GPT-RealTime은 66.5%를 기록하여 이전 모델을 능가했습니다. 2024년 12월에 출시된 모델은 49.7%를 기록했습니다.

또한 OpenAI는 비동기 함수 호출 기능을 개선했습니다. 장시간 실행되는 함수 호출이 더 이상 대화 흐름을 방해하지 않아 모델이 결과를 기다리는 동안에도 원활하게 대화를 이어갈 수 있습니다. 이 기능은 GPT-RealTime에서 기본적으로 지원되므로 개발자는 코드를 업데이트할 필요가 없습니다.

03. 음성 뉘앙스를 유지하고 4가지 새로운 RealTime API 기능 추가

음성을 텍스트로, 텍스트를 음성으로 변환하는 기존의 다중 모델 체인 프로세스와 달리, Realtime API는 단일 모델과 API를 통해 오디오를 직접 처리하고 생성하므로 지연 시간이 줄어들고 음성의 뉘앙스가 보존되며 응답이 보다 자연스럽고 표현력이 풍부해집니다.

RealTime API의 새로운 기능은 다음과 같습니다.

개발자는 세션 구성에 원격 MCP 서버 의 URL을 전달하여 세션에서 MCP 지원을 활성화할 수 있습니다. 연결되면 API가 도구 호출을 자동으로 처리하므로 개발자가 직접 통합을 설정할 필요가 없습니다.

이 설정을 사용하면 개발자가 자신의 세션을 다른 MCP 서버로 지정하기만 하면 즉시 작동합니다.

이미지 입력 ​​측면에서 개발자는 이미지, 사진, 스크린샷을 Realtime API 세션에 추가하여 오디오나 텍스트와 함께 사용할 수 있습니다. 이제 모델은 사용자가 실제로 보는 것을 기반으로 대화를 구축하여 사용자가 "무엇이 보이나요?" 또는 "이 스크린샷의 텍스트를 읽어보세요."와 같은 질문을 할 수 있도록 지원합니다.

이미지를 라이브 비디오 스트림처럼 처리하는 대신, 시스템은 대화에 사진을 추가하는 것처럼 작동합니다. 개발자 앱은 모델과 어떤 이미지를 언제 공유할지 결정할 수 있으며, 이를 통해 모델이 무엇을 보고 언제 반응할지 제어할 수 있습니다.

OpenAI는 또한 SIP(Session Initiation Protocol) 지원 및 재사용 가능한 프롬프트를 포함하여 Realtime API를 더 쉽게 통합할 수 있는 기능을 추가했습니다.

SIP 지원은 실시간 API를 통해 개발자의 애플리케이션을 공중 전화망, PBX 시스템, 사무실 전화 및 기타 SIP 엔드포인트에 직접 연결합니다.

재사용 가능한 프롬프트를 통해 개발자는 개발자 메시지, 도구, 변수, 샘플 사용자/어시스턴트 메시지를 포함한 프롬프트를 저장하고 재사용할 수 있습니다. Responses API의 사용 로직과 일관되게 Realtime API 세션 전반에서 사용할 수 있습니다.

04. 결론: 모델 남용 방지를 위한 다층적 보호 지침 수립

실시간 음성 대화가 악용되는 것을 방지하기 위해 Realtime API에는 여러 계층의 보안 및 완화 조치가 포함되어 있습니다. OpenAI는 Realtime API 대화에 능동 분류기를 사용하므로, 특정 대화가 유해 콘텐츠 가이드라인을 위반하는 것으로 감지되면 해당 대화를 종료할 수 있습니다. 개발자는 Agents SDK를 사용하여 자체적인 보안 조치를 추가할 수도 있습니다.

현재, 초현실적인 실시간 음성 대화는 광범위한 적용 사례를 보여주고 있습니다. Doubao의 실시간 음성 대화와 Baidu의 새로운 디지털 직원은 모두 음성을 사용자와의 주요 상호작용 방식으로 사용합니다. 또한, OpenAI가 출시한 새로운 음성 대 음성 모델은 더욱 강력한 추론 능력과 더욱 자연스러운 음성 표현을 보여주어 복잡한 다단계 요청을 처리하고 다양한 분야의 AI 에이전트를 구축할 수 있도록 지원합니다.

본 기사는 위챗 공개 계정 "지동희"(ID: zhidxcom) 에서 발췌하였으며, 저자는 정첸(Cheng Qian), 편집자는 리수이칭(Li Shuiqing)이고, 36Kr.의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트