Perplexity研究负责人:用GRPO+门控奖励把Qwen3.5打造成高效搜索agent
Perplexity 研究团队发表技术文章,详细公开其网页搜索 agent 的后训练流程:以开源 MoE 模型 Qwen3.5-122B-A10B 与 Qwen3.5-397B-A17B 为基础,采用“两阶段后训练”方案,先通过监督微调(SFT)建立指令遵循、语言一致性、拒答和安全等“部署必需行为”,再通过在线策略强化学习(RL)在真实工具环境下优化搜索准确率与工具使用效率。 RL 阶段使用 GRPO(Grouped Relative Policy Optimization)算法,训练数据由两部分构成:一是自研合成的多跳可验证问答数据集,从内部种子查询出发构造 2–4 跳实体链问题,并用多个独立 web 求解器验证答案唯一性;二是基于 rubric(评分标准)的通用对话数据,将格式约束、指令遵循和安全规范拆解为可自动检查的原子条件,用于在 RL 阶段持续约束行为,避免 SFT 已建立的“好习惯”在强化过程中退化。
奖励设计的核心是“门控聚合”:只有当基线任务正确(例如问答答对或 rubric 全部通过)时,偏好奖励才会参与计算,这样可以防止“语气、风格更讨好”的回答在事实错误时仍获得高奖励;效率惩罚采用组内锚定方式,对同一问题组内的多个正确轨迹,以最少工具调用/最短输出为锚,对超出部分施加平滑惩罚,从而在不牺牲正确率的前提下抑制过度调用搜索工具和啰嗦回答。 在 FRAMES 基准上,后训练后的 Qwen3.5-397B-SFT-RL 在单次工具调用预算下达到 57.3% 准确率,比 GPT-5.4 高 5.7 个百分点、比 Sonnet 4.6 高 4.7 个百分点;在中等预算(4 次工具调用)下准确率 73.9%,按公开 API 定价折算成本约 0.02 美元/查询,而同一预算下 GPT-5.4 为 67.8% / 0.085 美元,Sonnet 4.6 为 62.4% / 0.153 美元,显示其在“准确率–成本”曲线上明显处于优势位置。
来源:公开信息
ABAB AI 解读
这套后训练方案的关键思想,是把“合规/格式/安全”与“搜索能力/工具效率”分拆成两个阶段优化:先用 SFT 把模型“教乖”,再用 RL 在工具环境里“教会搜”。单阶段 RL 很容易让模型在追求奖励时牺牲原本 SFT 建立的守规行为,例如过度简化回答、忽视格式或安全约束;Perplexity 通过在 RL 数据中加入 rubric 化的通用对话,并用门控奖励机制确保“先要对,再谈好”,在实际训练曲线上压制了这类 reward hacking。
合成的多跳可验证问答数据集解决的是“可监督性”问题:真实用户搜索问答往往没有唯一标准答案,难以构造清晰的 RL 信号,而通过实体链生成的问题可以在多个 web 求解器间交叉验证,只保留唯一答案的样本,这为搜索 agent 提供了一个高信噪比的训练靶标。 同时,rubric 化的通用对话数据,则保证模型在处理非纯检索类任务(改写、规划、长对话)时,仍能在 RL 阶段被持续“提醒”遵守格式、引用与安全约束——这使得 agent 在真实产品环境中既能搜索,又不轻易“忘记”部署要求。
在效率维度,组内锚定的惩罚设计非常符合工程现实:它不是简单地惩罚所有工具调用或长输出,而是只在同一问题的“多个正确策略”之间做相对比较,用最经济的那条轨迹作为标尺,对冗余调用和冗长回答施加温和压力。 这种设计避免了“一刀切”式削减工具调用导致的准确率断崖,同时引导模型逼近一个“用够、不滥用”的工具策略——这也是其在 FRAMES 等基准上,能在相对较低工具预算下取得更高准确率的原因之一。
从行业格局看,这篇文章把“开源大模型 +自建 RL 训练管线”的路线推到了一个新高度:Perplexity 并未依赖自有闭源基座,而是用 Qwen3.5-122B/397B 这类可商用开源模型,通过复杂的后训练工程,把它们打造成在搜索任务上能对标甚至超越 GPT-5.4 与 Sonnet 4.6 的专用 agent。 这对未来生态有两点启示:一是模型本身的重要性在边际下降,数据与奖励设计开始成为主要差异化来源;二是“垂直任务+开源基座+重后训练”的组合,有现实机会在特定赛道上压过通用闭源模型,同时大幅降低成本——FRAMES 上“+6 个百分点准确率 / 成本仅为 GPT-5.4 的 1/4”的对比,是这一趋势在搜索场景中的具体体现。