快讯

Perplexity研究负责人：用GRPO+门控奖励把Qwen3.5打造成高效搜索agent

Perplexity 研究团队发表技术文章，详细公开其网页搜索 agent 的后训练流程：以开源 MoE 模型 Qwen3.5-122B-A10B 与 Qwen3.5-397B-A17B 为基础，采用“两阶段后训练”方案，先通过监督微调（SFT）建立指令遵循、语言一致性、拒答和安全等“部署必需行为”，再通过在线策略强化学习（RL）在真实工具环境下优化搜索准确率与工具使用效率。 RL 阶段使用 GRPO（Grouped Relative Policy Optimization）算法，训练数据由两部分构成：一是自研合成的多跳可验证问答数据集，从内部种子查询出发构造 2–4 跳实体链问题，并用多个独立 web 求解器验证答案唯一性；二是基于 rubric（评分标准）的通用对话数据，将格式约束、指令遵循和安全规范拆解为可自动检查的原子条件，用于在 RL 阶段持续约束行为，避免 SFT 已建立的“好习惯”在强化过程中退化。

奖励设计的核心是“门控聚合”：只有当基线任务正确（例如问答答对或 rubric 全部通过）时，偏好奖励才会参与计算，这样可以防止“语气、风格更讨好”的回答在事实错误时仍获得高奖励；效率惩罚采用组内锚定方式，对同一问题组内的多个正确轨迹，以最少工具调用/最短输出为锚，对超出部分施加平滑惩罚，从而在不牺牲正确率的前提下抑制过度调用搜索工具和啰嗦回答。在 FRAMES 基准上，后训练后的 Qwen3.5-397B-SFT-RL 在单次工具调用预算下达到 57.3% 准确率，比 GPT-5.4 高 5.7 个百分点、比 Sonnet 4.6 高 4.7 个百分点；在中等预算（4 次工具调用）下准确率 73.9%，按公开 API 定价折算成本约 0.02 美元/查询，而同一预算下 GPT-5.4 为 67.8% / 0.085 美元，Sonnet 4.6 为 62.4% / 0.153 美元，显示其在“准确率–成本”曲线上明显处于优势位置。

来源：公开信息

ABAB AI 解读

这套后训练方案的关键思想，是把“合规/格式/安全”与“搜索能力/工具效率”分拆成两个阶段优化：先用 SFT 把模型“教乖”，再用 RL 在工具环境里“教会搜”。单阶段 RL 很容易让模型在追求奖励时牺牲原本 SFT 建立的守规行为，例如过度简化回答、忽视格式或安全约束；Perplexity 通过在 RL 数据中加入 rubric 化的通用对话，并用门控奖励机制确保“先要对，再谈好”，在实际训练曲线上压制了这类 reward hacking。

合成的多跳可验证问答数据集解决的是“可监督性”问题：真实用户搜索问答往往没有唯一标准答案，难以构造清晰的 RL 信号，而通过实体链生成的问题可以在多个 web 求解器间交叉验证，只保留唯一答案的样本，这为搜索 agent 提供了一个高信噪比的训练靶标。同时，rubric 化的通用对话数据，则保证模型在处理非纯检索类任务（改写、规划、长对话）时，仍能在 RL 阶段被持续“提醒”遵守格式、引用与安全约束——这使得 agent 在真实产品环境中既能搜索，又不轻易“忘记”部署要求。

在效率维度，组内锚定的惩罚设计非常符合工程现实：它不是简单地惩罚所有工具调用或长输出，而是只在同一问题的“多个正确策略”之间做相对比较，用最经济的那条轨迹作为标尺，对冗余调用和冗长回答施加温和压力。这种设计避免了“一刀切”式削减工具调用导致的准确率断崖，同时引导模型逼近一个“用够、不滥用”的工具策略——这也是其在 FRAMES 等基准上，能在相对较低工具预算下取得更高准确率的原因之一。

从行业格局看，这篇文章把“开源大模型 +自建 RL 训练管线”的路线推到了一个新高度：Perplexity 并未依赖自有闭源基座，而是用 Qwen3.5-122B/397B 这类可商用开源模型，通过复杂的后训练工程，把它们打造成在搜索任务上能对标甚至超越 GPT-5.4 与 Sonnet 4.6 的专用 agent。这对未来生态有两点启示：一是模型本身的重要性在边际下降，数据与奖励设计开始成为主要差异化来源；二是“垂直任务+开源基座+重后训练”的组合，有现实机会在特定赛道上压过通用闭源模型，同时大幅降低成本——FRAMES 上“+6 个百分点准确率 / 成本仅为 GPT-5.4 的 1/4”的对比，是这一趋势在搜索场景中的具体体现。

来源

2026/04/23 05:01·

2 分钟阅读

·4 天前