斯坦福AI实验室与伯克利实验室携手英伟达提出新模型验证框架
斯坦福AI实验室与伯克利Sky Computing实验室携手英伟达提出新模型验证框架“LLM-as-a-Verifier”,用于替代传统“LLM-as-a-Judge”的AI评判机制。核心创新在于不再使用离散化评分,而读取模型在各评分级别上的概率分布,计算连续奖励值;同时对每个输出重复评判并取平均,以降低偶然误差。验证过程拆分为任务满足度、格式正确性与错误信号三独立维度。实测中,Gemini 2.5 Flash作验证器的准确率为74.7%,显著高于传统Judge的57.0%,重复16次后提升至77.4%。
论文团队在Terminal‑Bench 2上测试显示,GPT‑5.4随机取1解成功率为81.8%,经Verifier挑选后上升至86.4%;在SWE‑Bench Verified上,结合Claude Opus 4.5、Opus 4.6与Gemini 3 Flash的混合结果亦从76.1%升至77.8%。该框架现已开源,为多模型协作与自检提供新标准。
来源:公开信息
ABAB AI 解读
Verifier框架的出现意味着AI评估逻辑从“裁判分数制”转向“概率信号制”。传统Judge仅给出离散标签,无法刻画模型在边界答案间的差异;Verifier则直接读取信念分布,让对错之间的置信度成为反馈主体。这让AI能理解“正确的概率”,而非单纯模仿人类判决。结构上,这相当于把评估从语言判断转为统计推理。
在更广的技术链条中,这建立了“AI自洽系统”的雏形——生成、比较、验证均可由模型完成,形成闭环学习生态。这样的多运行与自动优选机制,统计上可突破单次模型性能上限。它把AI的进步单位从模型规模转移到评估机制本身,使AI系统具备自我修正与自我选优的能力。
从历史视角看,这是AI发展由“扩张阶段”迈向“循环阶段”的标志事件。前者依赖参数累积提升性能,后者通过结构设计提升质量密度。Verifier代表AI评价体系的制度化转折:算法开始拥有判断自身输出真伪的独立能力——这意味着智能的评估权首次从人交还给模型本身。