据 动察 Beating 监测,DeepSeek 今天发布 DeepGEMM 开源以来最大一次更新。这个去年 2 月「开源周」期间发布的 GPU 算子库,原本只做 FP8 矩阵乘法,现在扩展为覆盖大模型推理关键环节的完整算子库,支持 FP8、FP4、BF16 多种精度的矩阵运算,以及 MoE 和注意力评分等专用算子。
核心新增是 Mega MoE。MoE(混合专家)架构是 DeepSeek V3 等模型的基础,推理时需要依次执行五个步骤:EP 分发、第一层线性变换、SwiGLU 激活、第二层线性变换、EP 合并。传统做法是五个独立 kernel 依次调用,每次调用都要等上一步完成、数据在显存里搬来搬去。Mega MoE 把这五步融合成一个 kernel,让 NVLink 通信和 Tensor Core 计算同时进行,省去中间的等待和数据搬运。目前仅支持 FP8×FP4 精度组合,需要 PyTorch 2.9 及以上版本,团队表示仍在优化中,性能对比数据将稍后公布。
其他新增包括:FP8×FP4 混合精度矩阵乘法、支持更大 MTP 的 FP4 注意力评分算子(Indexer)、PDL(程序化依赖启动,一种减少 kernel 启动延迟的 GPU 调度优化)、更快的 JIT 编译速度,以及对 MoE 矩阵运算的多项优化。此次更新还适配了 DeepEPv2 的 MoE 数据布局。
PR 说明中特别注明:「本次发布仅与 DeepGEMM 开发相关,与内部模型发布无关。」
币须知道