据 动察 Beating 监测,谷歌发布新一代文本转语音模型 Gemini 3.1 Flash TTS,核心卖点不是「更像真人」,而是开发者可以精确控制 AI 语音的风格、语速和情绪表达。模型已通过 Gemini API、Google AI Studio(开发者预览)、Vertex AI(企业预览)和 Google Vids(Workspace 用户)上线。
这套控制能力的关键是「audio tags」(音频标签):开发者在输入文本中嵌入自然语言指令,就能调整 AI 语音的语调、节奏和口音,甚至在一句话中间切换表达风格。谷歌在 Google AI Studio 中提供了一套「导演椅」式的配置界面,包含三层控制:
1. 场景指导:设定环境和对话指令,让角色在多轮对话中保持一致性格
2. 角色级调参:为每个角色分配独立的音频配置,单独控制语速、语调和口音
3. 一键导出:调好的参数可直接导出为 Gemini API 代码,在不同项目和平台上复用
在第三方评测机构 Artificial Analysis 的 TTS 排行榜上,Gemini 3.1 Flash TTS 以 1211 分的 Elo 评分登顶,该排行榜基于数千次人类盲听偏好测试。Artificial Analysis 同时将其列入「最具吸引力象限」,即语音质量高且成本低。模型支持 70 多种语言和原生多角色对话,所有生成音频均内嵌 SynthID 水印用于 AI 内容识别。
对开发者来说,这意味着 TTS 从一个「把文字读出来」的工具变成了一个可编程的语音表演引擎。过去要做有情感的 AI 语音,要么靠后期处理,要么靠 SSML 标记语言逐字标注,现在用一句自然语言就能搞定。结合一键导出功能,同一套语音风格可以跨产品线复用,这对需要统一品牌声音的企业尤其实用。
币须知道