当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

V4后训练换代：OPD替代混合RL，十余个专家模型蒸馏为一

2026-04-24 分类：时事热门话题阅读(4) 评论(0)

据动察 Beating 监测，DeepSeek V4 后训练方法论发生重大变化：V3.2 的 mixed RL 阶段被 On-Policy Distillation（OPD，在线策略蒸馏）完全替代。

新流程分两步。第一步，针对数学、代码、Agent、指令跟随等领域，在 V3.2 流水线基础上分别训练领域专家模型，每个专家先做微调再用 GRPO 做强化学习。第二步，用多教师 OPD 将十余个专家的能力蒸馏进一个统一模型：学生在自身生成的轨迹上，对每个教师做 reverse KL 散度的全词表 logit 蒸馏，通过 logits 级别的对齐把多个专家权重合并到统一参数空间，避免传统 weight merging 和 mixed RL 常见的能力冲突。

报告还提出 Generative Reward Model（GRM，生成式奖励模型）：对于难以用规则验证的任务，不再训练传统标量奖励模型，而是用 rubric 引导的 RL 数据训练 GRM，让 actor 网络同时承担生成和评判能力，用少量多样化人工标注即可泛化到复杂任务。

赞(0)

未经允许不得转载：币须知道 » V4后训练换代：OPD替代混合RL，十余个专家模型蒸馏为一

相关推荐

评论抢沙发

回顶部