加密知识一站通
行情·工具·策略

V4后训练换代:OPD替代混合RL,十余个专家模型蒸馏为一

动察 Beating 监测,DeepSeek V4 后训练方法论发生重大变化:V3.2 的 mixed RL 阶段被 On-Policy Distillation(OPD,在线策略蒸馏)完全替代。

新流程分两步。第一步,针对数学、代码、Agent、指令跟随等领域,在 V3.2 流水线基础上分别训练领域专家模型,每个专家先做微调再用 GRPO 做强化学习。第二步,用多教师 OPD 将十余个专家的能力蒸馏进一个统一模型:学生在自身生成的轨迹上,对每个教师做 reverse KL 散度的全词表 logit 蒸馏,通过 logits 级别的对齐把多个专家权重合并到统一参数空间,避免传统 weight merging 和 mixed RL 常见的能力冲突。

报告还提出 Generative Reward Model(GRM,生成式奖励模型):对于难以用规则验证的任务,不再训练传统标量奖励模型,而是用 rubric 引导的 RL 数据训练 GRM,让 actor 网络同时承担生成和评判能力,用少量多样化人工标注即可泛化到复杂任务。

赞(0)
未经允许不得转载:币须知道 » V4后训练换代:OPD替代混合RL,十余个专家模型蒸馏为一

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址