据动察 Beating 监测,DeepSeek V4 技术报告披露,V4-Flash 和 V4-Pro 分别在 32T 和 33T tokens 上预训练,较 V3 的约 15T tokens 翻倍。报告坦承训练过程中「遭遇了显著的不稳定性挑战」,loss spike(训练损失突然飙升)反复出现,根源在于 MoE 层的异常值,路由机制本身还会加剧这些异常值,简单回滚无法根治。
DeepSeek 找到两个方案并已应用于实际训练:Anticipatory Routing(预见性路由),将路由索引计算与主干网络更新解耦,仅在检测到 loss spike 时自动触发,额外开销约 20%;SwiGLU Clamping,将激活值钳位到固定范围直接压制异常值。报告称两者均有效,但承认「底层原理尚未充分理解」。
谷歌 DeepMind 研究员 Susan Zhang(曾供职于 Meta AI 和 OpenAI)评论称,训练数据翻倍后引发的不稳定性「解释了延期」,将这两个方案形容为「创口贴」,同时肯定了 DeepSeek 的技术透明度。
币须知道