当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

谷歌发布Gemini 3.1 Flash TTS，开发者可像导演一样用自然语言指挥AI怎么说话

2026-04-16 分类：时事热门话题阅读(5) 评论(0)

据动察 Beating 监测，谷歌发布新一代文本转语音模型 Gemini 3.1 Flash TTS，核心卖点不是「更像真人」，而是开发者可以精确控制 AI 语音的风格、语速和情绪表达。模型已通过 Gemini API、Google AI Studio（开发者预览）、Vertex AI（企业预览）和 Google Vids（Workspace 用户）上线。

这套控制能力的关键是「audio tags」（音频标签）：开发者在输入文本中嵌入自然语言指令，就能调整 AI 语音的语调、节奏和口音，甚至在一句话中间切换表达风格。谷歌在 Google AI Studio 中提供了一套「导演椅」式的配置界面，包含三层控制：

1. 场景指导：设定环境和对话指令，让角色在多轮对话中保持一致性格
2. 角色级调参：为每个角色分配独立的音频配置，单独控制语速、语调和口音
3. 一键导出：调好的参数可直接导出为 Gemini API 代码，在不同项目和平台上复用

在第三方评测机构 Artificial Analysis 的 TTS 排行榜上，Gemini 3.1 Flash TTS 以 1211 分的 Elo 评分登顶，该排行榜基于数千次人类盲听偏好测试。Artificial Analysis 同时将其列入「最具吸引力象限」，即语音质量高且成本低。模型支持 70 多种语言和原生多角色对话，所有生成音频均内嵌 SynthID 水印用于 AI 内容识别。

对开发者来说，这意味着 TTS 从一个「把文字读出来」的工具变成了一个可编程的语音表演引擎。过去要做有情感的 AI 语音，要么靠后期处理，要么靠 SSML 标记语言逐字标注，现在用一句自然语言就能搞定。结合一键导出功能，同一套语音风格可以跨产品线复用，这对需要统一品牌声音的企业尤其实用。

赞(0)

未经允许不得转载：币须知道 » 谷歌发布Gemini 3.1 Flash TTS，开发者可像导演一样用自然语言指挥AI怎么说话

相关推荐

评论抢沙发

回顶部