快讯

Shakthi:Google用免费Gemini语音把对话入口锁在自己手里,不是把语音AI当成营收产品

Google将Gemini 3.1 Flash Live大规模推送给全球Android与iOS用户,在搜索与Gemini应用中开放语音对话与Search Live AI模式,覆盖超过200个国家和地区、90多种语言,不区分免费与付费层级。 相比之下,OpenAI的Advanced Voice Mode仍设置使用上限——免费用户的语音会话时间被严格限制,付费用户亦需在每日配额内使用,这种“免费扩张 vs 有限配额”的反差,被不少业内观察者解读为两家公司在语音入口上的根本策略差异:Google不需要语音本身盈利,它要的是让“Hey Gemini”成为默认搜索与思考界面,在ChatGPT抢占这一习惯前完成锁定。

从产品形态上,Flash Live不仅降低延迟,更把可持续对话的上下文窗口拉长——Google在技术文档和媒体沟通中强调,Gemini Live可以在一次会话中维持更长的“思路连续性”,支持用户进行十几分钟甚至更长的头脑风暴,而不仅仅是短句查询。 多家评测指出,这种“2倍对话深度”的变化,会将用户心智从“语音助手”(查天气、设闹钟)迁移到“语音思考伙伴”(长时间推演方案、拆解问题),一旦用户习惯用20分钟语音会话解决任务,就很难再回到键盘式、碎片化问答。

来源:公开信息

ABAB AI 解读

从竞争格局看,Google这次不是在做“语音功能对齐”,而是在抢时间:谁先把“长时语音对话”变成日常默认交互,谁就有机会在未来的agent时代垄断“问题入口”。 OpenAI用配额约束语音,很大程度上是受制于算力成本与产品定价结构;Google则有搜索与安卓的现金牛做后盾,可以像当年推广Android一样,用免费、全球化和深度预装,把Gemini Live当成流量与数据入口,而不是利润中心。

技术指标上,Gemini 3.1 Flash Live在ComplexFuncBench Audio上拿到90.8%的成绩,乍看只是一个埋在技术博客里的数字,实质却是“从语音助手走向语音代理”的分水岭。 ComplexFuncBench测试的是模型在音频场景中执行多步函数调用的能力——也就是一边听你说话,一边拆解任务、按顺序调用外部工具或API,在你说完之前已经串好了多个操作。这让语音交互不再只是“问-答循环”,而是变成“你口头提出目标,系统自动编排一串行动”的代理逻辑雏形。

多语言与全球同步上线则复制了Google在Android时代的经典打法:先铺开全球装机量,再考虑商业化精细化。 OpenAI在语音上先从英语起步、逐步本地化,而Google直接在近百种语言上可用,等竞争对手把本地语音调优完善、教育好用户时,这些用户很可能已经形成了“遇事先喊Gemini”的肌肉记忆。对于未来要在各国语言下运行的AI agent,这种“先占用母语语音入口”的优势,将远比单一基准测试分数更难被追赶。

从历史结构来看,这一步可以类比“浏览器—搜索—移动OS”三连:浏览器统一了Web入口,搜索统一了信息入口,Android统一了移动设备入口,现在Google试图用Gemini Live统一“自然语言交互入口”。 一旦人们习惯用语音长对话去思考、规划和执行任务,真正重要的就不再是“哪家模型略好一点”,而是谁掌控第一句话被说向哪里的那只“听筒”。

Google

来源

·
·
2 分钟阅读
·11 天前
分享: