快讯

Google AI 宣布推出Gemini 3.1 Flash TTS,谷歌新一代文本转语音模型

Google AI开发者关系主管Logan Kilpatrick宣布推出Gemini 3.1 Flash TTS,谷歌新一代文本转语音模型,支持场景指令、说话人级别控制、音频标签、“更自然且富有表现力”的声音,以及约70种语言。该模型现已通过Google AI Studio中的全新音频沙盒及Gemini API向开发者开放。

公开技术文档显示,该模型在音频控制层面引入了“音频标签”机制,允许开发者用自然语言控制语调、节奏和情绪表达,同时支持多说话人配置与多语种混合输出,强化内容生产与交互式语音应用的灵活性。

来源:公开信息

ABAB AI 解读

3.1 Flash TTS的发布,标志AI语音从“通用播报”走向“场景化表演”。当语音可以被“指令”精准控制风格与节奏,其产品边界就从“TTS工具”拓展为“角色生成引擎”,极大强化了游戏、播客、互动媒体与客服系统中的叙事与情绪控制能力。

从商业结构看,谷歌正将Gemini的声音能力与AI Studio、Vertex等平台产品深度绑定,形成“语音即服务”的完整链条。开发者不再需要独立采购TTS与角色配置服务,而是直接在统一平台调用高度可控的语音模型。这将加速内容生成与人机交互的“低门槛工业化”。

更深层地,这一能力反映了大模型公司的“控制层”战争已从纯文本向多模态迁移。在Gemini生态里,语音不仅是输入输出通道,还成为用户行为与数据采集的高维界面,有助于构建更精细的用户画像与互动模型。TTS的“自然表达”提升,实质是谷歌在AI触达真实场景中的一次关键标准化升级。

Google

来源

·
·
1 分钟阅读
·7 天前
分享: