OpenAI殺入語音模型大戰，祭出最強GPT-RealTime，加量還降價

08-29

智東西8月29日消息，今天凌晨，OpenAI發佈為開發人員打造的語音轉語音模型GPT-RealTime，並同步更新了包括遠程MCP服務器支持、圖像輸入和SIP（通過會話發起協議）電話呼叫支持的API功能。

OpenAI稱這是其迄今為止最先進的語音合成模型，GPT-RealTime在遵循複雜指令、精確調用工具以及生成更自然、更具表現力的語音方面有所改進。該模型可以自然朗讀重複的字母、數字，無縫切換語言，甚至可以捕捉笑聲等非語言信號。

今天OpenAI還發布了兩個新語音Cedar和Marin，它們將在Realtime API中獨家提供。

定價方面，通用版Realtime API和新的GPT-RealTime模型從今天起對所有開發者開放，GPT-RealTime每百萬token音頻輸入價格為32美元（摺合人民幣約228元），緩存輸入每百萬token為0.4美元（摺合人民幣約2.85元），每百萬token音頻輸出價格64美元（摺合人民幣約456元），GPT-RealTime相比gpt-4o-realtime-preview價格下調20%。

OpenAI增加了對對話上下文的細粒度控制，允許開發者設置智能token限制，並一次截斷多個回合，顯著降低長會話的成本。

去年10月，OpenAI發佈了Realtime API的公開測試版，至今已經有數千名開發者使用該API並提出建議。

但從OpenAI在社交平臺X的評論區來看，有用戶對這一新模型充滿期待，稱語音應用將變得更加有趣，但也有開發者反映，模型的聲音還是很像機器人，且舊的語音角色聽起來只是稍微更具表現力。

語音模型方面，當下國內外進展都在加速。本月初，國內大模型六小虎之一MiniMax就推出了語音生成模型Speech 2.5，覆蓋超40個語種；今年年初，豆包App也更新了實時語音通話功能，免費向用戶開放，其可以模仿不同聲線，進行情緒感知等；與OpenAI同天，微軟推出了首款高度表現力和自然語音生成模型MAI-Voice-1，同一提示詞可以生成不同表現的音頻。

01.買房、買票、預約醫生，都能像朋友一樣交談

OpenAI在博客上放出了與五家公司合作構建語音助理的實例。

首先是美國房地產的信息服務平臺Zillow，OpenAI的新模型可以與自然用戶交談，幫助其根據生活方式需求篩選房源或分析購買價格等。

其次是作為T-Mobile的手機助手，AI助手能快速交替對話，即使用戶在句子中間打斷，開啟新話題也不會被影響。

第三個是票務買賣平臺StubHub，OpenAI的新模型可以幫助用戶付款，指導付款過程中遇到的問題。

第四個是幫用戶打電話預約醫生，Oscar Health的平臺裡，這一新模型可以幫用戶確認空閒預約時間、預約注意事項、預約地址。

最後是保險科技公司Lemonade，當用戶購買汽車時遇到保險問題，AI助手可以為用戶提供購買幫助，在對話中獲取用戶的訴求然後根據內部儲存的用戶個人、銀行卡信息進行購買操作。

02.能捕捉笑聲，無縫切換語言調整語氣

OpenAI針對GPT-RealTime的音頻質量、理解用戶指令、遵循指令等方面進行了改進。

語音Agent想要讓用戶能持續對話，模型需要像人類一樣帶有語調、情感和節奏，以創造愉悅的對話體驗。博客中提到，GPT-RealTime可以產出更自然的高質量語音，並能遵循細粒度的指令，例如“快速專業地說話”或“用法國口音富有同情心地說話”。

在理解用戶指令方面，GPT-RealTime可以捕捉笑聲等非語言線索，在句子中切換語言，並調整語氣。根據OpenAI內部評估，該模型在西班牙語、中文、日語和法語等語言中，檢測電話號碼等的字母數字序列的準確性也更高。

Big Bench Audio評估中，GPT-RealTime的準確率為82.8%，超過了OpenAI 2024年12月發佈的舊模型。Big Bench Audio基準測試是一個用於評估支持音頻輸入的語言模型推理能力的評估數據集。

在構建語音轉語音應用時，開發者會向模型提供一系列行為指令，包括如何說話、在特定情況下該說什麼、該做什麼或不該做什麼。OpenAI專注於改進模型對這些指令的遵循程度，使得即使是微小的指令也能為模型傳遞更多信息。

在衡量指令遵循準確性的MultiChallenge音頻基準測試中，GPT-RealTime得分為30.5%，相較舊模型的20.6%有顯著提升。MultiChallenge評估大模型在處理與人類的多輪對話時的表現，OpenAI從測試題中篩選出適合音頻呈現的子集，通過文本轉語音（TTS）技術將其轉換為語音，進而製作出本次評估的音頻版本。

要構建一個具備語音轉語音模型的強大語音Agent，模型需要能夠在正確的時間調用正確的工具。OpenAI在三個維度上改進了函數調用：調用相關函數、在適當的時間調用函數以及使用適當的參數調用函數。在測量函數調用性能的ComplexFuncBench音頻評估中，GPT-RealTime得分66.5%，超過舊模型分數。而我們在2024年12月發佈的模型得分為49.7%。

此外，OpenAI還改進了異步函數調用。長時間運行的函數調用將不再中斷會話流程，模型可以在等待結果時繼續流暢地對話。此功能已在GPT-RealTime中原生提升支持，開發者無需更新代碼。

03.保留語音細微差別，新增四大RealTime API新功能

與傳統將語音轉文本和文本轉語音的多模型鏈式流程不同，Realtime API通過單個模型和API直接處理和生成音頻，這減少了延遲，保留了語音中的細微差別，並使得其響應更自然、更具表現力。

RealTime API的新功能包括：

開發者可以通過在會話配置中傳入遠程MCP服務器的URL在會話中啟用MCP支持。連接後，API會自動處理工具調用，無需開發者手動設置集成。

這種設置使開發者只需將會話指向不同的MCP服務器，就立即可用。

圖像輸入方面，開發者可以在Realtime API會話中添加圖像、照片和截圖，與音頻或文本一起使用。現在模型可以基於用戶實際看到的內容來構建對話，使用戶能夠提出諸如“你看到了什麼？”或“閱讀此截圖中的文本”等問題。

與其將圖像視為實時視頻流，系統更像是將圖片添加到對話中。開發者的應用程序可以決定與模型共享哪些圖像以及何時共享，這樣就能控制模型看到什麼以及何時回應。

OpenAI還增加了使Realtime API更易於集成的功能，包括會話發起協議（SIP）支持、可重用提示。

SIP支持通過Realtime API直接連接開發者的應用程序到公共電話網絡、PBX系統、辦公電話和其他SIP終端。

可重用提示允許開發者保存和重用提，包含開發者消息、工具、變量以及示例用戶/助手消息，且支持跨Realtime API會話使用，與Responses API的使用邏輯一致。

04.結語：設多層防護指南防止模型濫用

為了防止實時語音對話被濫用，Realtime API包含多層安全防護和緩解措施，OpenAI對Realtime API會話採用主動分類器，這意味著如果檢測到某些對話違反了有害內容指南，可以中止這些對話。開發者還可以使用Agents SDK添加自己的額外安全防護措施。

當下，超逼真的實時語音對話已經展現出頗為廣闊的應用場景，豆包實時語音對話、百度新推的數字員工等，都將語音作為與用戶的主要交互形式，再加上OpenAI此次發佈的新語音轉語音模型，也展現出更強的推理能力和更自然的語音表現力，使其能夠處理複雜的多步驟請求，在不同賽道構建AI Agent。

本文來自微信公眾號“智東西”（ID：zhidxcom），作者：程茜，編輯：李水青，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論