据动察 Beating 监测,DeepSeek V4 后训练方法论发生重大变化:V3.2 的 mixed RL 阶段被 On-Policy Distillation(OPD,在线策略蒸馏)完全替代。
新流程分两步。第一步,针对数学、代码、Agent、指令跟随等领域,在 V3.2 流水线基础上分别训练领域专家模型,每个专家先做微调再用 GRPO 做强化学习。第二步,用多教师 OPD 将十余个专家的能力蒸馏进一个统一模型:学生在自身生成的轨迹上,对每个教师做 reverse KL 散度的全词表 logit 蒸馏,通过 logits 级别的对齐把多个专家权重合并到统一参数空间,避免传统 weight merging 和 mixed RL 常见的能力冲突。
报告还提出 Generative Reward Model(GRM,生成式奖励模型):对于难以用规则验证的任务,不再训练传统标量奖励模型,而是用 rubric 引导的 RL 数据训练 GRM,让 actor 网络同时承担生成和评判能力,用少量多样化人工标注即可泛化到复杂任务。
币须知道