当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

DeepMind研究员推测DeepSeek V4延期原因：训练数据翻倍至33T引发严重不稳定

2026-04-24 分类：时事热门话题阅读(3) 评论(0)

据动察 Beating 监测，DeepSeek V4 技术报告披露，V4-Flash 和 V4-Pro 分别在 32T 和 33T tokens 上预训练，较 V3 的约 15T tokens 翻倍。报告坦承训练过程中「遭遇了显著的不稳定性挑战」，loss spike（训练损失突然飙升）反复出现，根源在于 MoE 层的异常值，路由机制本身还会加剧这些异常值，简单回滚无法根治。

DeepSeek 找到两个方案并已应用于实际训练：Anticipatory Routing（预见性路由），将路由索引计算与主干网络更新解耦，仅在检测到 loss spike 时自动触发，额外开销约 20%；SwiGLU Clamping，将激活值钳位到固定范围直接压制异常值。报告称两者均有效，但承认「底层原理尚未充分理解」。

谷歌 DeepMind 研究员 Susan Zhang（曾供职于 Meta AI 和 OpenAI）评论称，训练数据翻倍后引发的不稳定性「解释了延期」，将这两个方案形容为「创口贴」，同时肯定了 DeepSeek 的技术透明度。

赞(0)

未经允许不得转载：币须知道 » DeepMind研究员推测DeepSeek V4延期原因：训练数据翻倍至33T引发严重不稳定

相关推荐

评论抢沙发

回顶部