Google 上線 Gemini 3.1 Flash TTS：音訊標籤讓 AI 配音更生動、支援 70+ 語言，Google AI Studio 免費體驗

本文目錄

Google 這次把火力轉向語音領域，Gemini 3.1 Flash TTS 於 15 日正式亮相，帶著「音訊標籤」這張新牌，要讓開發者像電影導演一樣，用文字指令就能精準排程 AI 聲音的每個細節。

根據 Google 官方公告，Gemini 3.1 Flash TTS 即日起分三條線同步推出：開發者可透過 Gemini API 與 Google AI Studio 搶先體驗；企業使用者透過 Vertex AI 存取；Google Workspace 及個人帳戶使用者則可在 Google Vids 中直接使用，新增 16 種支援語言一並上線。

Elo 1,211 高分評價

品質面，Google 直接祭出第三方資料佐證：在 Artificial Analysis TTS 排行榜（收集數千筆盲測人類偏好）上，3.1 Flash TTS 拿下 Elo 1,211 的成績，並被歸入「最具吸引力象限」，意指同時具備高品質語音生成與低成本優勢。支援語言覆蓋 70 種以上，並原生支援多說話者對話場景。

音訊標籤：把導演席交給開發者

這次最核心的技術更新是「音訊標籤（Audio Tags）」，讓開發者將自然語言指令直接嵌入文字輸入，對 AI 語音進行細粒度控制，不再只能靠模型猜測語氣。Google 將整套體驗拆成三個層次：

場景導向：開發者定義環境背景、給出具體對話指令，讓不同角色在多輪對話中保持「入戲」狀態，語氣自然銜接。

說話者層級精確度：透過獨特的 Audio Profiles 塑造角色聲線，再用 Director’s Notes 動態切換節奏、語氣、口音；Inline Tags 則允許說話者在句子中途臨時改變表達方式。

無縫匯出：確認表演引數後，可直接匯出為 Gemini API 程式碼，確保跨專案、跨平台輸出一致的聲音識別度。

StyleUAI、HeyGen、Invideo AI、Sierra 等多家早期測試企業對此給予正面回饋，能將普通文字轉化為具備情感層次的聲音表演。

SynthID 水印，全面標記 AI 生成音訊

同時 Gemini 3.1 Flash TTS 生成的所有音訊均內建 SynthID 水印。這是一種難以察覺、直接交織進音訊波形的隱形標記，可被系統可靠偵測，有助於辨識 AI 生成內容並防範錯誤訊息傳播。這也是 Google 持續推進 AI 內容溯源機制的一部分。

整體而言，3.1 Flash TTS 的定位清晰：以「高品質、低成本、強可控」三角補全 Gemini 生態系在語音端的拼圖，而音訊標籤的推出，則是把過去只存在於專業錄音棚的導演式語音控制，以 API 的形式向全球開發者平民化開放。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論