快讯

Ollama团队：升级缓存与推理支持，显著加速Apple Silicon设备性能

Ollama公布新版更新，重点优化缓存系统与推理效率。新版缓存机制可跨会话重用内存，提升分支对话时的命中率，并通过“智能检查点”机制减少提示词处理量，实现更快响应。同时，引入“更聪明的淘汰策略”，让共享前缀在多分支交互中得以延续。

此外，Ollama现已支持NVIDIA的NVFP4格式，使模型在保持精度的同时减少带宽与存储开销。这让用户推理结果与生产环境一致，并解锁使用通过NVIDIA Model Optimizer优化的模型能力。官方还宣布，未来将开放更多架构，引入自定义模型导入功能。基于NVFP4的Qwen3.5-35B-A3B模型在Apple Silicon M5系列芯片上显著提速，首token生成与整体吞吐均提升。

来源：公开信息

ABAB AI 解读

Ollama此次更新体现了AI客户端向“本地化推理层优化”的系统工程转向。通过缓存再利用与NVFP4精度格式结合，推理性能不再仅依赖模型本身，而成为软硬件协同的函数。这意味着AI算力不再是“云端封闭资源”，而正通过本地优化策略被分发至终端生态。

NVFP4的采用关键在于压缩带宽占用并保持权重稳定性，使推理硬件能在能耗受限环境下实现生产级一致性结果。这实质上是AI基础设施“半中心化化”：用户设备成为边缘推理节点，而Ollama提供的是算法级分布优化层。

长周期看，这标志推理市场从模型竞赛转向执行层竞争。未来的性能差距，将取决于模型运行环境的缓存策略、编译格式与加速架构适配。Ollama此次的工程进化不仅提升了Apple芯片性能，也代表AI软件生态的重心正从“巨型模型拥有权”转向“执行效率与推理体验”的再定价阶段。

来源

2026/03/31 05:03·

1 分钟阅读

·7 天前