快讯

Google AI 宣布推出Gemini 3.1 Flash TTS，谷歌新一代文本转语音模型

Google AI开发者关系主管Logan Kilpatrick宣布推出Gemini 3.1 Flash TTS，谷歌新一代文本转语音模型，支持场景指令、说话人级别控制、音频标签、“更自然且富有表现力”的声音，以及约70种语言。该模型现已通过Google AI Studio中的全新音频沙盒及Gemini API向开发者开放。

公开技术文档显示，该模型在音频控制层面引入了“音频标签”机制，允许开发者用自然语言控制语调、节奏和情绪表达，同时支持多说话人配置与多语种混合输出，强化内容生产与交互式语音应用的灵活性。

来源：公开信息

ABAB AI 解读

3.1 Flash TTS的发布，标志AI语音从“通用播报”走向“场景化表演”。当语音可以被“指令”精准控制风格与节奏，其产品边界就从“TTS工具”拓展为“角色生成引擎”，极大强化了游戏、播客、互动媒体与客服系统中的叙事与情绪控制能力。

从商业结构看，谷歌正将Gemini的声音能力与AI Studio、Vertex等平台产品深度绑定，形成“语音即服务”的完整链条。开发者不再需要独立采购TTS与角色配置服务，而是直接在统一平台调用高度可控的语音模型。这将加速内容生成与人机交互的“低门槛工业化”。

更深层地，这一能力反映了大模型公司的“控制层”战争已从纯文本向多模态迁移。在Gemini生态里，语音不仅是输入输出通道，还成为用户行为与数据采集的高维界面，有助于构建更精细的用户画像与互动模型。TTS的“自然表达”提升，实质是谷歌在AI触达真实场景中的一次关键标准化升级。

Google

来源

2026/04/15 22:19·

1 分钟阅读

·7 天前