Ramp联合创始人Eric Glyman:通过潜在简报让AI代理直接共享记忆,省下三成算力开销
企业支付与智能财务平台Ramp联合创始人Eric Glyman表示,公司在给AI代理接入公司卡与命令行工具之后,如今又赋予代理“心灵感应式”协作能力:通过新方案Latent Briefing,代理之间不再用自然语言互相总结和传递上下文,而是直接在内部表示层共享“相关记忆”,实现缓存对缓存的通信。 Ramp Labs披露,在LongBench等长上下文基准上,该方法在保持甚至略微提升准确率的前提下,使多代理系统整体Token使用量减少约21%–31%,工作代理本身Token消耗下降逾四成,压缩开销维持在秒级。
Ramp此前已在其企业财务Agent栈中大量使用多代理协作,包括负责路由、检索、历史查询和草稿生成的多个专用Agent,并通过直接连接企业真实账务数据和公司卡权限,实现费用报销审核、差旅合规校验等工作自动化,被外媒称为“朝零点击企业工作流”迈进的代表案例之一。 Glyman此次将Latent Briefing形容为在卡片与CLI之后的又一次架构级升级,意在降低企业内部Agent系统的算力成本与延迟瓶颈。
来源:公开信息
ABAB AI 解读
Ramp的Latent Briefing本质上是在把“上下文”从文本层搬到表示层——不再让代理彼此写长段Prompt互相读,而是用模型自己的注意力模式和KV缓存来选择、压缩和共享有用信息。 这一步意味着,多代理系统的瓶颈从“语言通信成本”转向“内部状态编排”:谁能更好地管理KV缓存和隐空间,就能在同样的模型能力下,用更少算力完成更多推理,这对所有尝试把Agent规模化部署到企业生产系统的公司来说,直接关系到毛利率。
从算力经济结构看,企业级AI正在经历一次“成本再定价”:最早一代是按查询计费,第二阶段是通过RAG减少重复阅读长文档,如今则进入“潜在记忆优化”阶段——在模型内部动手术,把每个额外Token都看作真实成本,逼近推理路径的单位经济极限。 Ramp这样的实务型公司在生产环境里做KV级别优化,意味着这类技术不再是研究玩具,而是开始直接作用于企业P&L:在多代理长尾场景下,能省下三成Token,就等于为整套AI操作系统释放出一整档的利润空间。
更深一层,这条路径预示了未来Agent架构的权力迁移。传统SaaS时代,价值集中在“界面+数据库”,而Agent时代的价值,将集中在“记忆+编排层”:谁掌握了高效而可靠的记忆系统,谁就控制了企业工作流的真正操作系统。 Ramp先给代理发卡,再给CLI,如今再优化代理之间的“心灵感应”,其实是在把自己从“企业支出管理工具”升级为“企业AI执行层”的底座。等到更多公司在内部跑起多代理系统,真正的竞争优势将不再是谁家的模型参数更大,而是谁更会让这些模型在隐空间里记住什么、遗忘什么、以及彼此如何“无声对话”。