快讯

Ollama团队:升级缓存与推理支持,显著加速Apple Silicon设备性能

Ollama公布新版更新,重点优化缓存系统与推理效率。新版缓存机制可跨会话重用内存,提升分支对话时的命中率,并通过“智能检查点”机制减少提示词处理量,实现更快响应。同时,引入“更聪明的淘汰策略”,让共享前缀在多分支交互中得以延续。

此外,Ollama现已支持NVIDIA的NVFP4格式,使模型在保持精度的同时减少带宽与存储开销。这让用户推理结果与生产环境一致,并解锁使用通过NVIDIA Model Optimizer优化的模型能力。官方还宣布,未来将开放更多架构,引入自定义模型导入功能。基于NVFP4的Qwen3.5-35B-A3B模型在Apple Silicon M5系列芯片上显著提速,首token生成与整体吞吐均提升。

来源:公开信息

ABAB AI 解读

Ollama此次更新体现了AI客户端向“本地化推理层优化”的系统工程转向。通过缓存再利用与NVFP4精度格式结合,推理性能不再仅依赖模型本身,而成为软硬件协同的函数。这意味着AI算力不再是“云端封闭资源”,而正通过本地优化策略被分发至终端生态。

NVFP4的采用关键在于压缩带宽占用并保持权重稳定性,使推理硬件能在能耗受限环境下实现生产级一致性结果。这实质上是AI基础设施“半中心化化”:用户设备成为边缘推理节点,而Ollama提供的是算法级分布优化层。

长周期看,这标志推理市场从模型竞赛转向执行层竞争。未来的性能差距,将取决于模型运行环境的缓存策略、编译格式与加速架构适配。Ollama此次的工程进化不仅提升了Apple芯片性能,也代表AI软件生态的重心正从“巨型模型拥有权”转向“执行效率与推理体验”的再定价阶段。

AI

来源

·
·
1 分钟阅读
·7 天前
分享: