Fireworks AI CEO:训练与推理共享同一GPU池才能把万亿级开源模型真正拉进生产
AI 推理基础设施公司 Fireworks AI 发布 Fireworks Training 预览版,从“只做推理”的平台扩展为覆盖训练与部署的一体化平台,由曾参与构建 PyTorch 的前 Meta 工程师 Lin Qiao 创立,公司估值约 40 亿美元,日处理 token 量达 15 万亿。 新平台提供三个层级:面向产品团队的 Training Agent(描述任务+上传数据即可完成 LoRA 微调与部署)、面向 ML 工程师的 Managed Training(支持 SFT、DPO、RL 等微调及全参训练),以及面向研究团队的 Training API(可自定义损失函数与训练循环,支持 GRPO、DAPO 等强化学习算法),训练规模从单节点的 Qwen3 8B 到在 64 块英伟达 B200 上训练万亿参数 Kimi K2.5。
Fireworks 称其生产推理客户 Cursor、Vercel 和 Genspark 已在该平台上完成前沿强化学习训练:Vercel 为代码生成产品 v0 训练自动纠错模型,使“零错误代码生成率”提升至约 93%,自称显著高于 Sonnet 3.5 的 62%,端到端延迟较此前闭源模型方案改善约 40 倍;Genspark 在万亿参数 Kimi K2 基础上做 RL 微调构建深度研究代理,工具调用量提升 33%,成本下降 50%;Cursor 在全球 3–4 个集群上分布式完成 Composer 2 的 RL 训练,并与生产推理解耦于同一 GPU 池,在自家 CursorBench 上排名第一。 公司强调其核心差异化在于“训练–推理数值一致性”:针对对隐藏态极度敏感的 MoE 模型,Fireworks 为所有支持模型公开训练与推理间的 KL 散度指标,均低于 0.01,以避免强化学习后模型在部署阶段因数值差异导致路由翻转和性能崩塌。
来源:公开信息
ABAB AI 解读
Fireworks 这一轮扩张,其实是在补上“开源阵营缺一站式训练–推理基础设施”的空白:过去,强推理平台大多只管部署,不管训练;而科研圈的训练基础设施又很难直接承载线上高并发推理。现在它把三层产品打包——从“无 ML infra 的产品团队”到“需要定制损失的研究组”——本质上是在把 OpenAI/Anthropic 时代的“闭源全链路体验”复制到开源世界,用统一 GPU 池承载从 LoRA 到万亿全参训练,再无缝转到生产服务。 这对于想在 Kimi、Qwen、Llama 等开源模型之上做差异化的应用方,相当于给了一套与云巨头对等的工程后台。
Cursor、Vercel 和 Genspark 的案例,反映的是“训练–推理一体化”在经济结构上的意义:不是为了刷更高的基准分数,而是为了在同一套 GPU 池内实现“训练迭代速度 × 推理成本”的双重极值——Cursor 用同一池子跑 RL 训练和在线推理,意味着任何训练中发现的数值问题都会立刻暴露在生产延迟与稳定性上,倒逼基础设施把数值一致性(如 MoE 路由的稳定差分)做到可度量、可承诺。 在这种架构下,RL 不再是实验室玩具,而是直接为“无错误代码率、工具调用成功率、响应延迟”这类业务指标负责的生产工具。
Fireworks 把 MoE 的数值一致性拉到台面,是因为这正是大规模开源模型走向工业化的卡点之一:MoE 在成本–性能比上极具吸引力,但极小的浮点误差即可翻转专家路由,导致训练环境下验证通过的行为在推理环境中失真。 通过公开训练–推理 KL 散度并将其压到 0.01 以下,Fireworks 等于给出了一种“工业级 MoE 服务承诺”——企业不必自己为 FP16/FP8 量化、不同 CUDA 内核和多集群调度的微小差异买单,而是可以把这一层风险外包给基础设施提供商。
从更大的产业结构看,这一步也说明“训练迷思”在退潮,落地方真正需要的是“约束感知的聪明推理+可控的迭代半径”:企业不再追逐自训一个GPT-5,而是希望在一个稳定的开源栈上,以 LoRA、SFT、DPO、GRPO 等手段频繁、小步地贴近自己业务的目标函数,而这一切必须在与生产推理高度耦合的环境中完成,才能避免“线下验证通过,线上表现崩溃”。 Fireworks Training 把这个过程产品化,某种意义上是在宣告:下一个阶段的竞争,不是比谁的基础模型更大,而是比谁能让“从数据到行为改进”这一闭环跑得更快、更稳定、更便宜。