当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

提速4倍且不爆显存，MIT与英伟达发布Lightning OPD：砍掉大模型蒸馏的实时教师服务

2026-05-12 分类：时事热门话题阅读(3) 评论(0)

据动察 Beating 监测，NVIDIA 与 MIT 研究团队发布了新的大语言模型后训练框架 Lightning OPD（离线同策略蒸馏）。这项技术通过预先离线计算教师模型的对数概率（log-probabilities），彻底砍掉了传统蒸馏训练中必须全程保持在线的实时教师服务，将训练效率提升了 4 倍。

此前，标准的同策略蒸馏（OPD）要求在一台机器上同时运行学生和教师模型。当模型变大时，这种做法极易导致显存溢出（OOM）。Lightning OPD 把所有 GPU 算力都释放给了学生模型。在单节点 8 张 H100 显卡的测试中，Lightning OPD 成功跑通了对 Qwen3-30B-A3B-Base（总参数 300 亿的大型 MoE 模型）的蒸馏，在 AIME 2024 测试中拿到 71.0 分；作为对比，标准 OPD 在同样的硬件配置下直接报 OOM。在更小的 Qwen3-8B 规模上，该框架仅耗时 30 个 GPU 小时就达到了 69.9 分。

研究团队在论文中指出了实现离线蒸馏的一个隐藏前置条件：「教师一致性」。学生模型在监督微调（SFT）和后续的蒸馏阶段，必须使用同一个教师模型。如果不遵守这个原则，梯度的方向就会出现偏差，最终拖垮模型的表现。

赞(0)

未经允许不得转载：币须知道 » 提速4倍且不爆显存，MIT与英伟达发布Lightning OPD：砍掉大模型蒸馏的实时教师服务

相关推荐

评论抢沙发

回顶部