Google 上线 Gemini 3.1 Flash TTS：音讯标签让 AI 配音更生动、支援 70+ 语言，Google AI Studio 免费体验

本文目录

Google 这次把火力转向语音领域，Gemini 3.1 Flash TTS 于 15 日正式亮相，带著「音讯标签」这张新牌，要让开发者像电影导演一样，用文字指令就能精准排程 AI 声音的每个细节。

根据 Google 官方公告，Gemini 3.1 Flash TTS 即日起分三条线同步推出：开发者可透过 Gemini API 与 Google AI Studio 抢先体验；企业使用者透过 Vertex AI 存取；Google Workspace 及个人帐户使用者则可在 Google Vids 中直接使用，新增 16 种支援语言一并上线。

Elo 1,211 高分评价

品质面，Google 直接祭出第三方资料佐证：在 Artificial Analysis TTS 排行榜（收集数千笔盲测人类偏好）上，3.1 Flash TTS 拿下 Elo 1,211 的成绩，并被归入「最具吸引力象限」，意指同时具备高品质语音生成与低成本优势。支援语言覆盖 70 种以上，并原生支援多说话者对话场景。

音讯标签：把导演席交给开发者

这次最核心的技术更新是「音讯标签（Audio Tags）」，让开发者将自然语言指令直接嵌入文字输入，对 AI 语音进行细粒度控制，不再只能靠模型猜测语气。Google 将整套体验拆成三个层次：

场景导向：开发者定义环境背景、给出具体对话指令，让不同角色在多轮对话中保持「入戏」状态，语气自然衔接。

说话者层级精确度：透过独特的 Audio Profiles 塑造角色声线，再用 Director’s Notes 动态切换节奏、语气、口音；Inline Tags 则允许说话者在句子中途临时改变表达方式。

无缝汇出：确认表演引数后，可直接汇出为 Gemini API 程式码，确保跨专案、跨平台输出一致的声音识别度。

StyleUAI、HeyGen、Invideo AI、Sierra 等多家早期测试企业对此给予正面回馈，能将普通文字转化为具备情感层次的声音表演。

SynthID 水印，全面标记 AI 生成音讯

同时 Gemini 3.1 Flash TTS 生成的所有音讯均内建 SynthID 水印。这是一种难以察觉、直接交织进音讯波形的隐形标记，可被系统可靠侦测，有助于辨识 AI 生成内容并防范错误讯息传播。这也是 Google 持续推进 AI 内容溯源机制的一部分。

整体而言，3.1 Flash TTS 的定位清晰：以「高品质、低成本、强可控」三角补全 Gemini 生态系在语音端的拼图，而音讯标签的推出，则是把过去只存在于专业录音棚的导演式语音控制，以 API 的形式向全球开发者平民化开放。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢