快讯

Google DeepMind发布新一代音频与语音模型 Gemini 3.1 Flash Live,定位为目前质量最高的音频模型

Google DeepMind发布新一代音频与语音模型 Gemini 3.1 Flash Live,定位为“目前质量最高的音频模型”,重点就是让实时对话更自然、更可靠,该模型已接入 Gemini Live 与 Search Live,并通过Gemini Live API向开发者开放。官方介绍称,3.1 Flash Live在延迟、语气理解与多轮对话记忆方面相较上一代有显著提升,能在更长对话中保持上下文、识别用户语气中的挫败或困惑,并实时调整回应,支持超过90种语言,为在200多个国家落地语音搜索与对话式助手扫清技术门槛。

ABAB AI 解读

本质上,Gemini 3.1 Flash Live是在把“实时语音AI”从工具升级为“拟人化对话代理”:低延迟和更自然的语调,让它能在客服、教育、销售和娱乐等场景中,替代或放大大量人类一线沟通角色。 对开发者和企业而言,这意味着可以用更低成本部署24/7在线、能记忆上下文和调用工具的语音代理,而不必依赖昂贵且难以扩展的人力团队;对普通用户而言,语音助手将从“机械问答”变成类似真人同事或私人助理的存在,在决策与执行链条中占据更高权重。

在更大结构上,这也会推动“接口权”的迁移:谁控制最自然、最低摩擦的语音入口,谁就掌握过滤信息、推送服务与收集数据的上游通道。Google通过把Flash Live嵌入Search Live与Gemini Live,相当于在手机与网页层面插入一个“语音操作系统”,让用户在越来越多场景中通过对话而不是键盘与手指与数字世界互动。 随着OpenAI、Apple、xAI等厂商也在加速语音代理布局,下一阶段的竞争焦点将不是“谁的模型更大”,而是“谁的AI在耳机和扬声器那端更像人、更快、更值得信任”,这将重塑搜索、广告、应用分发乃至金融与政务服务的入口格局。

Google

来源

·
·
1 分钟阅读
·11 天前
分享: