加密知识一站通
行情·工具·策略

提速4倍且不爆显存,MIT与英伟达发布Lightning OPD:砍掉大模型蒸馏的实时教师服务

动察 Beating 监测,NVIDIA 与 MIT 研究团队发布了新的大语言模型后训练框架 Lightning OPD(离线同策略蒸馏)。这项技术通过预先离线计算教师模型的对数概率(log-probabilities),彻底砍掉了传统蒸馏训练中必须全程保持在线的实时教师服务,将训练效率提升了 4 倍。

此前,标准的同策略蒸馏(OPD)要求在一台机器上同时运行学生和教师模型。当模型变大时,这种做法极易导致显存溢出(OOM)。Lightning OPD 把所有 GPU 算力都释放给了学生模型。在单节点 8 张 H100 显卡的测试中,Lightning OPD 成功跑通了对 Qwen3-30B-A3B-Base(总参数 300 亿的大型 MoE 模型)的蒸馏,在 AIME 2024 测试中拿到 71.0 分;作为对比,标准 OPD 在同样的硬件配置下直接报 OOM。在更小的 Qwen3-8B 规模上,该框架仅耗时 30 个 GPU 小时就达到了 69.9 分。

研究团队在论文中指出了实现离线蒸馏的一个隐藏前置条件:「教师一致性」。学生模型在监督微调(SFT)和后续的蒸馏阶段,必须使用同一个教师模型。如果不遵守这个原则,梯度的方向就会出现偏差,最终拖垮模型的表现。

赞(0)
未经允许不得转载:币须知道 » 提速4倍且不爆显存,MIT与英伟达发布Lightning OPD:砍掉大模型蒸馏的实时教师服务

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址