OpenAI發佈端對端語音模型GPT-Realtime，助力開發者構建語音智能體

08-29

北京時間8月29日凌晨，OpenAI通過直播發布其迄今最先進的端對端語音模型（Speech-to-Speech）GPT-Realtime，並宣佈Realtime API全面進入生產環境。相較於之前的語音AI產品，GPT-Realtime性能更優，價格更低，旨在幫助開發者更輕鬆地構建高效、可靠的語音智能體。

伴隨性能提升，GPT-Realtime的定價大幅優化，較上一代產品GPT-4o-Realtime-Preview降低20%。此前，GPT-4o-Realtime-Preview價格為每百萬音頻輸入tokens 40美元，每百萬音頻輸出tokens 80美元。GPT-Realtime調整後價格為每百萬音頻輸入tokens 32美元（緩存輸入tokens 0.40美元），每百萬音頻輸出tokens 64美元。這一優化定價讓開發者能以更低成本構建高效的語音智能體，同時享受更卓越的性能。

OpenAI還優化了對話上下文管理，開發者可靈活設置token限制並一次性截斷多輪對話，顯著降低長會話成本。

01.深入解析：更智能、更具表現力的語音模型

全新GPT-Realtime模型在性能上實現了重大飛躍。OpenAI宣稱這是其迄今最先進的生產級語音模型，在遵循複雜指令、精確調用工具以及生成更自然、富有表現力的語音方面取得顯著進步。

OpenAI表示，GPT-Realtime能夠更精準地執行復雜指令，生成更自然、富有表現力的語音，並支持在一句話中無縫切換多種語言。在內部基準測試中，該模型展現出更高的智能水平。相較於之前的語音AI模型，GPT-Realtime在以下方面顯著提升：

音質與表現力：能模擬人類語調、情感和語速，支持開發者自定義語氣，如“快速且專業”或“溫和且體貼”，提升用戶體驗。

智能與理解力：不僅處理文本和語音，還能識別非語言信號（如笑聲），並在一句話中靈活切換語言，並準確處理字母數字序列。內部測試顯示，GPT-Realtime在Big Bench Audio推理測試中的準確率達 82.8%，遠超上一代產品GPT-4o-Realtime-Preview在2024年12月的65.6%，以及在今年6月3日的81.5%。

指令遵循：指令遵循是可靠智能體的關鍵功能，GPT-Realtime在這方面也有所增強。在MultiChallenge Audio測試中，GPT-Realtime指令執行準確率達30.5%，能夠更可靠地遵循開發者指定的提示，例如在支持電話中逐字朗讀法律免責聲明。這一表現優於上一代產品 GPT-4o-Realtime-Preview在2024年12月的測試值20.6%，以及在今年6月3日的測試值26.5%。

函數調用：為在現實世界中發揮作用，語音智能體必須有效使用外部工具。在ComplexFuncBench Audio測試中，GPT-Realtime函數調用準確率達66.5%，並支持異步調用，確保對話流暢不因等待結果而中斷。相比之下，GPT-4o-Realtime-Preview在2024年12月的測試值為49.7%，在今年6月3日測試值為58.9%。

除了智能提升，該模型經過訓練能生成更高質量的語音，具備更類人的語調、情感和語速。它能遵循細粒度的指令，例如“快速且專業地講話”或“以法國口音溫和地講話”，為用戶提供更個性化的體驗。此外，GPT-Realtime支持圖像輸入，可識別照片或截圖內容。例如，用戶可上傳截圖並要求模型 “讀取其中文字”，進一步擴展應用場景。

為展示這些進步，OpenAI發佈了兩種僅在API中可用的新語音——Cedar 和Marin，展現了最顯著的自然語音改進。這一對細節的關注旨在解決行業關鍵挑戰：OpenAI的升級直接致力於打造更具吸引力和更少機器人化的用戶體驗。

02.賦能開發者：面向生產級智能體的API升級

除了新模型，Realtime API本身現已達到生產級標準。自2024年10月公測以來，OpenAI收集了數千名開發者的反饋，並進行了相應的改進。API的架構通過單一模型直接處理音頻，旨在降低延遲並保留語音細節，相較於傳統語音到文本和文本到語音的多模型串聯管道具有明顯優勢。

一項關鍵新增功能是支持遠程模型上下文協議（MCP）服務器。這一開放標準簡化了AI模型與外部數據的連接方式。開發者現可通過會話配置傳遞遠程MCP服務器的URL，使Realtime API自動處理工具調用，無需手動集成。這簡化了將AI模型連接到專有數據源的過程，是構建強大商業智能體的關鍵步驟，同時優先保障用戶數據和隱私。

Realtime API現還支持圖像輸入，啟用多模態對話，智能體可分析並討論用戶看到的內容。系統將圖像視為對話中的快照而非實時視頻流，確保開發者對模型看到的內容保有控制權。這解鎖了諸如讓智能體描述照片或讀取截圖文本等用例。

此外，新增的會話發起協議（SIP）支持允許直接與公共電話網絡、PBX 系統和其他企業電話端點集成，便於在呼叫中心等商業環境中部署語音智能體。

早期採用者已見成效。房地產平臺Zillow提前獲得了Realtime API訪問權限，用於驅動其下一代房屋搜索。該公司AI負責人約什·維斯伯格（Josh Weisberg）表示：“它展現了更強的推理能力和更自然的語音，能夠處理複雜、多步驟的請求，如根據生活方式需求篩選房源。”

03.競爭激烈的語音AI賽場

OpenAI此次發佈GPT-Realtime模型，正值語音AI市場競爭白熱化階段，各大競爭對手正積極推進自身語音技術研發與佈局。今年5月，Anthropic為旗下Claude AI推出語音模式，強勢躋身語音AI領域；7 月，Meta以4500萬美元收購語音初創公司PlayAI，旨在強化其AI助手與智能眼鏡的技術能力，這一動作也進一步加劇了行業內的人才爭奪。

開源社區同樣是不容忽視的強大競爭力量。7月，法國初創公司Mistral發佈Voxtral模型，該模型採用Apache 2.0許可協議，且官方承諾其服務價格將低於同類產品API價格的一半，同時能提供頂尖性能；本月，小米發佈自研聲音理解大模型MiDashengLM-7B，該模型創新性地採用基於字幕的訓練方法，實現了對語音、音樂及環境音的全面理解，並且同樣採用商業友好型許可協議。

傳統科技巨頭也在語音AI領域持續發力。今年4月，亞馬遜推出實時表現力模型Nova Sonic，並將其集成至旗下Alexa+助手中。語音AI領域的創新還延伸到了專業初創公司層面。例如，Stability AI專注於設備端語音處理技術的研發；而Sesame AI等公司則通過在語音中加入自然停頓、輕微口吃等類人特徵，打造出被稱為“驚豔逼真”的AI助手。

此次 OpenAI通過優化技術，讓其最先進的語音模型變得更易用、功能更強且更具成本優勢，這一舉措是其在愈發激烈的平臺競爭中採取的戰略佈局。OpenAI寄希望於憑藉卓越的開發者體驗，在這場語音AI領域的“戰爭”中佔據優勢，成為決定競爭結果的關鍵因素。

本文來自“騰訊科技”，作者：無忌，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論