当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

DeepSeek开源GPU算子库DeepGEMM大版本更新，新增Mega MoE将MoE五步运算融合为单个kernel

2026-04-16 分类：时事热门话题阅读(3) 评论(0)

据动察 Beating 监测，DeepSeek 今天发布 DeepGEMM 开源以来最大一次更新。这个去年 2 月「开源周」期间发布的 GPU 算子库，原本只做 FP8 矩阵乘法，现在扩展为覆盖大模型推理关键环节的完整算子库，支持 FP8、FP4、BF16 多种精度的矩阵运算，以及 MoE 和注意力评分等专用算子。

核心新增是 Mega MoE。MoE（混合专家）架构是 DeepSeek V3 等模型的基础，推理时需要依次执行五个步骤：EP 分发、第一层线性变换、SwiGLU 激活、第二层线性变换、EP 合并。传统做法是五个独立 kernel 依次调用，每次调用都要等上一步完成、数据在显存里搬来搬去。Mega MoE 把这五步融合成一个 kernel，让 NVLink 通信和 Tensor Core 计算同时进行，省去中间的等待和数据搬运。目前仅支持 FP8×FP4 精度组合，需要 PyTorch 2.9 及以上版本，团队表示仍在优化中，性能对比数据将稍后公布。

其他新增包括：FP8×FP4 混合精度矩阵乘法、支持更大 MTP 的 FP4 注意力评分算子（Indexer）、PDL（程序化依赖启动，一种减少 kernel 启动延迟的 GPU 调度优化）、更快的 JIT 编译速度，以及对 MoE 矩阵运算的多项优化。此次更新还适配了 DeepEPv2 的 MoE 数据布局。

PR 说明中特别注明：「本次发布仅与 DeepGEMM 开发相关，与内部模型发布无关。」

赞(0)

未经允许不得转载：币须知道 » DeepSeek开源GPU算子库DeepGEMM大版本更新，新增Mega MoE将MoE五步运算融合为单个kernel

相关推荐

评论抢沙发

回顶部