快讯

Ramp联合创始人Eric Glyman：通过潜在简报让AI代理直接共享记忆，省下三成算力开销

企业支付与智能财务平台Ramp联合创始人Eric Glyman表示，公司在给AI代理接入公司卡与命令行工具之后，如今又赋予代理“心灵感应式”协作能力：通过新方案Latent Briefing，代理之间不再用自然语言互相总结和传递上下文，而是直接在内部表示层共享“相关记忆”，实现缓存对缓存的通信。 Ramp Labs披露，在LongBench等长上下文基准上，该方法在保持甚至略微提升准确率的前提下，使多代理系统整体Token使用量减少约21%–31%，工作代理本身Token消耗下降逾四成，压缩开销维持在秒级。

Ramp此前已在其企业财务Agent栈中大量使用多代理协作，包括负责路由、检索、历史查询和草稿生成的多个专用Agent，并通过直接连接企业真实账务数据和公司卡权限，实现费用报销审核、差旅合规校验等工作自动化，被外媒称为“朝零点击企业工作流”迈进的代表案例之一。 Glyman此次将Latent Briefing形容为在卡片与CLI之后的又一次架构级升级，意在降低企业内部Agent系统的算力成本与延迟瓶颈。

来源：公开信息

ABAB AI 解读

Ramp的Latent Briefing本质上是在把“上下文”从文本层搬到表示层——不再让代理彼此写长段Prompt互相读，而是用模型自己的注意力模式和KV缓存来选择、压缩和共享有用信息。这一步意味着，多代理系统的瓶颈从“语言通信成本”转向“内部状态编排”：谁能更好地管理KV缓存和隐空间，就能在同样的模型能力下，用更少算力完成更多推理，这对所有尝试把Agent规模化部署到企业生产系统的公司来说，直接关系到毛利率。

从算力经济结构看，企业级AI正在经历一次“成本再定价”：最早一代是按查询计费，第二阶段是通过RAG减少重复阅读长文档，如今则进入“潜在记忆优化”阶段——在模型内部动手术，把每个额外Token都看作真实成本，逼近推理路径的单位经济极限。 Ramp这样的实务型公司在生产环境里做KV级别优化，意味着这类技术不再是研究玩具，而是开始直接作用于企业P&L：在多代理长尾场景下，能省下三成Token，就等于为整套AI操作系统释放出一整档的利润空间。

更深一层，这条路径预示了未来Agent架构的权力迁移。传统SaaS时代，价值集中在“界面+数据库”，而Agent时代的价值，将集中在“记忆+编排层”：谁掌握了高效而可靠的记忆系统，谁就控制了企业工作流的真正操作系统。 Ramp先给代理发卡，再给CLI，如今再优化代理之间的“心灵感应”，其实是在把自己从“企业支出管理工具”升级为“企业AI执行层”的底座。等到更多公司在内部跑起多代理系统，真正的竞争优势将不再是谁家的模型参数更大，而是谁更会让这些模型在隐空间里记住什么、遗忘什么、以及彼此如何“无声对话”。

来源

2026/04/11 14:25·

2 分钟阅读

·10 天前