快讯

Shakthi：Google用免费Gemini语音把对话入口锁在自己手里，不是把语音AI当成营收产品

Google将Gemini 3.1 Flash Live大规模推送给全球Android与iOS用户，在搜索与Gemini应用中开放语音对话与Search Live AI模式，覆盖超过200个国家和地区、90多种语言，不区分免费与付费层级。相比之下，OpenAI的Advanced Voice Mode仍设置使用上限——免费用户的语音会话时间被严格限制，付费用户亦需在每日配额内使用，这种“免费扩张 vs 有限配额”的反差，被不少业内观察者解读为两家公司在语音入口上的根本策略差异：Google不需要语音本身盈利，它要的是让“Hey Gemini”成为默认搜索与思考界面，在ChatGPT抢占这一习惯前完成锁定。

从产品形态上，Flash Live不仅降低延迟，更把可持续对话的上下文窗口拉长——Google在技术文档和媒体沟通中强调，Gemini Live可以在一次会话中维持更长的“思路连续性”，支持用户进行十几分钟甚至更长的头脑风暴，而不仅仅是短句查询。多家评测指出，这种“2倍对话深度”的变化，会将用户心智从“语音助手”（查天气、设闹钟）迁移到“语音思考伙伴”（长时间推演方案、拆解问题），一旦用户习惯用20分钟语音会话解决任务，就很难再回到键盘式、碎片化问答。

来源：公开信息

ABAB AI 解读

从竞争格局看，Google这次不是在做“语音功能对齐”，而是在抢时间：谁先把“长时语音对话”变成日常默认交互，谁就有机会在未来的agent时代垄断“问题入口”。 OpenAI用配额约束语音，很大程度上是受制于算力成本与产品定价结构；Google则有搜索与安卓的现金牛做后盾，可以像当年推广Android一样，用免费、全球化和深度预装，把Gemini Live当成流量与数据入口，而不是利润中心。

技术指标上，Gemini 3.1 Flash Live在ComplexFuncBench Audio上拿到90.8%的成绩，乍看只是一个埋在技术博客里的数字，实质却是“从语音助手走向语音代理”的分水岭。 ComplexFuncBench测试的是模型在音频场景中执行多步函数调用的能力——也就是一边听你说话，一边拆解任务、按顺序调用外部工具或API，在你说完之前已经串好了多个操作。这让语音交互不再只是“问-答循环”，而是变成“你口头提出目标，系统自动编排一串行动”的代理逻辑雏形。

多语言与全球同步上线则复制了Google在Android时代的经典打法：先铺开全球装机量，再考虑商业化精细化。 OpenAI在语音上先从英语起步、逐步本地化，而Google直接在近百种语言上可用，等竞争对手把本地语音调优完善、教育好用户时，这些用户很可能已经形成了“遇事先喊Gemini”的肌肉记忆。对于未来要在各国语言下运行的AI agent，这种“先占用母语语音入口”的优势，将远比单一基准测试分数更难被追赶。

从历史结构来看，这一步可以类比“浏览器—搜索—移动OS”三连：浏览器统一了Web入口，搜索统一了信息入口，Android统一了移动设备入口，现在Google试图用Gemini Live统一“自然语言交互入口”。一旦人们习惯用语音长对话去思考、规划和执行任务，真正重要的就不再是“哪家模型略好一点”，而是谁掌控第一句话被说向哪里的那只“听筒”。

Google

来源

2026/03/28 08:16·

2 分钟阅读

·11 天前