加密知识一站通
行情·工具·策略

美团开源首个从训练到推理都用国产芯片的万亿大模型LongCat-2.0

动察 Beating 监测,美团开源超大规模混合专家(MoE)模型 LongCat-2.0。模型拥有 1.6 万亿总参数,单 token 激活参数约 480 亿,支持 1M 超长上下文。

这是业界首个依靠国产算力完成训练、推理全流程的万亿参数大模型。它在超过 5 万张国产 AI 芯片集群上完成了 35 万亿 token 的预训练,成功验证了国产算力承载前沿大模型的工程稳定性。

LongCat-2.0 的核心更新集中在长上下文和推理效率。LongCat Sparse Attention(LSA)针对稀疏注意力索引带来的显存读取和计算开销,引入流感知索引、跨层索引和分层索引,让长文本推理时的索引读取更连续,也能在相邻层之间复用部分索引结果。

模型还集成 1350 亿参数的 5-gram 嵌入模块,通过建模相邻 token 组合来扩展嵌入空间,增强局部上下文表达。相比只依赖 MoE 专家路由,这类前置嵌入可以在大 batch 推理中减少部分显存读写压力。

在 SWE-bench Pro 等主流 Agent 和代码评测中,LongCat-2.0 表现逼近甚至超越部分主流闭源模型。

赞(0)
未经允许不得转载:币须知道 » 美团开源首个从训练到推理都用国产芯片的万亿大模型LongCat-2.0

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址