Google 上線 Gemini 3.1 Flash TTS:音訊標籤讓 AI 配音更生動、支援 70+ 語言,Google AI Studio 免費體驗

Google 這次把火力轉向語音領域,Gemini 3.1 Flash TTS 於 15 日正式亮相,帶著「音訊標籤」這張新牌,要讓開發者像電影導演一樣,用文字指令就能精準排程 AI 聲音的每個細節。

根據 Google 官方公告,Gemini 3.1 Flash TTS 即日起分三條線同步推出:開發者可透過 Gemini API 與 Google AI Studio 搶先體驗;企業使用者透過 Vertex AI 存取;Google Workspace 及個人帳戶使用者則可在 Google Vids 中直接使用,新增 16 種支援語言一並上線。

Elo 1,211 高分評價

品質面,Google 直接祭出第三方資料佐證:在 Artificial Analysis TTS 排行榜(收集數千筆盲測人類偏好)上,3.1 Flash TTS 拿下 Elo 1,211 的成績,並被歸入「最具吸引力象限」,意指同時具備高品質語音生成與低成本優勢。支援語言覆蓋 70 種以上,並原生支援多說話者對話場景。

音訊標籤:把導演席交給開發者

這次最核心的技術更新是「音訊標籤(Audio Tags)」,讓開發者將自然語言指令直接嵌入文字輸入,對 AI 語音進行細粒度控制,不再只能靠模型猜測語氣。Google 將整套體驗拆成三個層次:

場景導向:開發者定義環境背景、給出具體對話指令,讓不同角色在多輪對話中保持「入戲」狀態,語氣自然銜接。

說話者層級精確度:透過獨特的 Audio Profiles 塑造角色聲線,再用 Director’s Notes 動態切換節奏、語氣、口音;Inline Tags 則允許說話者在句子中途臨時改變表達方式。

無縫匯出:確認表演引數後,可直接匯出為 Gemini API 程式碼,確保跨專案、跨平台輸出一致的聲音識別度。

StyleUAI、HeyGen、Invideo AI、Sierra 等多家早期測試企業對此給予正面回饋,能將普通文字轉化為具備情感層次的聲音表演。

SynthID 水印,全面標記 AI 生成音訊

同時 Gemini 3.1 Flash TTS 生成的所有音訊均內建 SynthID 水印。這是一種難以察覺、直接交織進音訊波形的隱形標記,可被系統可靠偵測,有助於辨識 AI 生成內容並防範錯誤訊息傳播。這也是 Google 持續推進 AI 內容溯源機制的一部分。

整體而言,3.1 Flash TTS 的定位清晰:以「高品質、低成本、強可控」三角補全 Gemini 生態系在語音端的拼圖,而音訊標籤的推出,則是把過去只存在於專業錄音棚的導演式語音控制,以 API 的形式向全球開發者平民化開放。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論