据动察 Beating 监测,DeepSeek V4 发布前,社区广泛流传一种猜测:V4 上线时间晚于预期,是因为模型从英伟达迁移到华为昇腾平台遭遇适配困难。V4 技术报告虽未直接回应这一传闻,但披露的性能数据与之明显矛盾。
报告显示,V4 的细粒度专家分区方案(Fine-Grained EP Scheme)已在 NVIDIA GPU 和华为昇腾 NPU 双平台完成部署验证,常规推理负载加速 1.50 至 1.73 倍,RL rollout 和高速 Agent 服务等延迟敏感场景最高加速 1.96 倍。团队已将 CUDA 版本内核 MegaMoE 作为 DeepGEMM 的一部分开源。换言之,V4 在两套硬件上都跑出了接近理论上限的效率,跨平台适配并未造成性能折损。
币须知道