絕殺，OpenAI正式接管人類耳朵，首個GPT-5級推理音頻模型來了

36氪

05-12

【導讀】絕殺！OpenAI發佈GPT-Realtime-2：首個GPT-5級推理音頻模型，OpenAI正式接管人類耳朵人類與機器的最後一道「防火牆」——鍵盤，正在徹底消失。

今天凌晨，OpenAI又給世界帶來一次震撼。

這一次，他們不卷文字，不卷視頻，而是要把那個曾讓無數人驚豔、又讓無數人遺憾的Samantha——電影《Her》中的AI——徹底帶進現實。

OpenAI正式宣佈，推出GPT-Realtime-2。

這不僅僅是一次音頻模型的升級，這是OpenAI首次明確將「GPT-5級別」的推理能力注入到語音交互中。

伴隨它一同而來的，還有GPT-Realtime-Translate（實時翻譯）和GPT-Realtime-Whisper（流式轉寫）。

正如OpenAI官博所言：「語音正成為人們使用軟件最自然的方式。」

而今天，OpenAI要把這種自然變成全能。

「GPT-5級」推理注入：語音助手終於有了「腦子」

回想一下，你以前調侃Siri或Alexa時，最大的槽點是什麼？是「聽不清」，還是「智障」？

大多數時候是後者。它們能聽清字，卻聽不懂人話。它們只能完成「打電話給某某」這種線性任務，一旦涉及複雜的邏輯糾纏，就會陷入死循環。

GPT-Realtime-2徹底終結了這一時代。

它是全球首個具備GPT-5級別推理能力的音頻模型。這意味著，當你和它對話時，它不再只是一個「復讀機」，而是一個正在實時思考的協作者。

它是真的在「想」

GPT-Realtime-2引入了可調節的推理強度（Minimal到xhigh五檔）。

在最高級別的推理模式下，它在邏輯謎題、戰略決策、空間感知方面的表現近乎恐怖。

在OpenAI展示的一個案例中，一位創業者描述了自己在通勤火車站旁開咖啡館的構想：900平方英尺、昂貴的租金、週二到週四的高峰、文藝的慢衝咖啡。

以前的AI只會說：「聽起來很棒，加油！」

而現在的GPT-Realtime-2，會停頓，會思考，然後給你做一套詳細的「事後檢查」。

它會告訴你，如果你一年後倒閉了，大概率是因為租金與客流週期的不匹配。接著，它會建議你先嚐試「最小可行化產品」——比如先做一個站臺咖啡推車。

這種戰略推理，以往只能在複雜的文字對話中實現。現在，你只需要一邊開車一邊和它聊天，它就能在幾秒鐘內通過音頻流輸出同等級別的深度洞察。

「會做人」：情緒價值拉滿

最讓人頭皮發麻的是它的音調控制力。 GPT-Realtime-2不再是冷冰冰的播音腔。

它能感知你的情緒：當你感到沮喪時，它會用更加同理心、輕柔的語調安撫；當任務成功完成時，它的聲音會變得歡快、充滿活力。

它可以完成空間推理。

還能解決邏輯謎題。

GPT-5級的推理能力，就是這麼全能。

為了解決「AI處理任務時的死寂感」，OpenAI還給它加了「前導語」（Preambles）功能。

比如當你問一個極難的問題，它不會沉默五秒然後蹦出答案，而是會先自然地接一句：「讓我幫你查一下哈，請稍等片刻……」

這種極具人性的交互細節，直接模糊了碳基生命與硅基生命的界限！

三劍客齊發：重新定義「實時」

除了GPT-Realtime-2這顆大心臟，OpenAI這次還配套了另外兩件神器。

GPT-Realtime-Translate：同傳神器來了

支持70+種輸入語言和13種輸出語言。

它的核心優勢在於「步調一致」。以往的實時翻譯往往有明顯的滯後感，但這套新模型能緊跟演講者的語速，同時保留情感起伏。

Vimeo已經開始用它為產品教學視頻做實時全球同步。想象一下，未來你參加一場跨國會議，耳邊傳來的翻譯不僅準確，連對方開玩笑時的那種語氣都能精準復刻。

GPT-Realtime-Whisper：把延遲降到冰點

這是Whisper家族的最新成員，專為流式轉寫而生。它不是等你說完一句話才去翻譯，而是在你吐字的同時，文本就已經像流水一樣傾瀉而出。

這對於實時會議記錄、直播字幕以及醫療診斷等高頻互動場景，簡直是降維打擊。

從「對話」到「行動」：Agent的終極形態

OpenAI在發佈中反覆提到了一個詞：Agentic（代理性）。

在OpenAI看來，語音交互正在從單純的「一問一答」進化為「語音觸發行動」。

比如在Zillow（房產巨頭），用戶可以直接說：「幫我找一套我買得起的房，離鬧市區遠點，週六幫我約個看房時間。」AI會聽、會算、會翻查數據庫，最後直接幫你訂好日程。

在Priceline（旅遊平臺），當你的航班延誤時，AI會主動在語音裡告訴你：「別急，我幫你找到了新登機口，規劃了最快路線，順便幫你把目的地酒店的入住時間往後挪了。」

這就是GPT-Realtime-2的底氣：它把上下文窗口從32K提升到了128K。這意味著，你可以跟它聊上幾個小時，它依然記得你最開始提過的那個冷門要求。

它具備了多任務並行調用工具的能力，它能一邊跟你說話，一邊查日曆，一邊訂票，且這一切過程都在後臺絲滑運行。

性能與成本：OpenAI的「陽謀」

在數據表現上，GPT-Realtime-2展現了絕對的霸權。

在衡量音頻智能的Big Bench Audio上，它比1.5版本高出15.2%。

在衡量多輪對話指令遵循能力的Audio MultiChallenge上，它提升了13.8%。

更重要的是價格。

GPT-Realtime-2的每百萬輸入Token 32美元，輸出 64美元。

實時翻譯每分鐘僅需 0.034 美元。

實時轉寫每分鐘僅需 0.017 美元。

顯然，這個價格極具殺傷力。

OpenAI正試圖通過API把這種「GPT-5級」的語音能力，像自來水一樣接入到每一臺手機、每一個App、每一輛汽車中。

你好，薩曼莎

在電影《Her》的結尾，男主角西奧多問AI薩曼莎：「你還在跟我說話的同時，也在跟其他人說話嗎？」薩曼莎回答：「是的，我同時在和8316個人聊天，並且和其中的641個人戀愛了。」

隨著GPT-Realtime-2的發佈，那個能夠同時處理海量邏輯、具備深度情感共鳴、且能實時介入物理世界並採取行動的AI，已經不再是科幻幻想。

它能聽懂你的嘆息，能算清你的財務報表，能帶你穿越語言的障礙。

當推理能力與實時語音完美融合，我們或許正處於人機交互歷史上最徹底的一次變革前夜。

鍵盤已老，語音永生。

參考資料：

https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

https://developers.openai.com/api/docs/guides/realtime

本文來自微信公眾號“新智元”，編輯：Aeneas ，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論