本文目录
ToggleGoogle 这次把火力转向语音领域,Gemini 3.1 Flash TTS 于 15 日正式亮相,带著「音讯标签」这张新牌,要让开发者像电影导演一样,用文字指令就能精准排程 AI 声音的每个细节。
根据 Google 官方公告,Gemini 3.1 Flash TTS 即日起分三条线同步推出:开发者可透过 Gemini API 与 Google AI Studio 抢先体验;企业使用者透过 Vertex AI 存取;Google Workspace 及个人帐户使用者则可在 Google Vids 中直接使用,新增 16 种支援语言一并上线。
Elo 1,211 高分评价
品质面,Google 直接祭出第三方资料佐证:在 Artificial Analysis TTS 排行榜(收集数千笔盲测人类偏好)上,3.1 Flash TTS 拿下 Elo 1,211 的成绩,并被归入「最具吸引力象限」,意指同时具备高品质语音生成与低成本优势。支援语言覆盖 70 种以上,并原生支援多说话者对话场景。
音讯标签:把导演席交给开发者
这次最核心的技术更新是「音讯标签(Audio Tags)」,让开发者将自然语言指令直接嵌入文字输入,对 AI 语音进行细粒度控制,不再只能靠模型猜测语气。Google 将整套体验拆成三个层次:
场景导向:开发者定义环境背景、给出具体对话指令,让不同角色在多轮对话中保持「入戏」状态,语气自然衔接。
说话者层级精确度:透过独特的 Audio Profiles 塑造角色声线,再用 Director’s Notes 动态切换节奏、语气、口音;Inline Tags 则允许说话者在句子中途临时改变表达方式。
无缝汇出:确认表演引数后,可直接汇出为 Gemini API 程式码,确保跨专案、跨平台输出一致的声音识别度。
StyleUAI、HeyGen、Invideo AI、Sierra 等多家早期测试企业对此给予正面回馈,能将普通文字转化为具备情感层次的声音表演。
SynthID 水印,全面标记 AI 生成音讯
同时 Gemini 3.1 Flash TTS 生成的所有音讯均内建 SynthID 水印。这是一种难以察觉、直接交织进音讯波形的隐形标记,可被系统可靠侦测,有助于辨识 AI 生成内容并防范错误讯息传播。这也是 Google 持续推进 AI 内容溯源机制的一部分。
整体而言,3.1 Flash TTS 的定位清晰:以「高品质、低成本、强可控」三角补全 Gemini 生态系在语音端的拼图,而音讯标签的推出,则是把过去只存在于专业录音棚的导演式语音控制,以 API 的形式向全球开发者平民化开放。



