当前位置：币须知道 > 精选主题 > 时事热门话题 > 正文

Nous开源Lighthouse Attention：单B200跑512K提速17倍

2026-05-16 分类：时事热门话题阅读(3) 评论(0)

据动察 Beating 监测，Nous Research 开源了长上下文预训练机制 Lighthouse Attention。在单张 B200 显卡上处理 512K 长度文本时，该方案的计算速度比传统机制快约 17 倍，并在 98K 长度下实现了 1.4 到 1.7 倍的端到端训练提速。

传统注意力机制需要计算所有字词的两两关系，文本一长，算力消耗就会呈平方级暴涨。Lighthouse Attention 改用先粗筛再精算的思路。它会先在不同层级快速浏览文本的压缩摘要，通过打分挑出核心片段拼成短文本，然后直接交给现成的高效算子 FlashAttention 处理。由于筛选逻辑被彻底剥离到了内核之外，开发者直接省去了手写底层代码的麻烦，也不用增加额外的训练目标。

过去采用类似思路的加速方案常有副作用，模型习惯跳跃阅读后，极易丧失原本逐字精读的能力。为了避开这个陷阱，研发团队让模型先用加速模式跑完绝大部分进度，只在训练末尾短暂切回传统的全注意力计算稍作适应。在针对 5.3 亿参数规模的模型、投喂 500 亿 Token 训练数据的实测中，这样练出的模型不仅大幅缩短了耗时，最终表现还全面追平甚至反超了全程使用传统方式训练的基线版本。

赞(0)

未经允许不得转载：币须知道 » Nous开源Lighthouse Attention：单B200跑512K提速17倍

相关推荐

评论抢沙发

回顶部