加密知识一站通
行情·工具·策略

Nous开源Lighthouse Attention:单B200跑512K提速17倍

动察 Beating 监测,Nous Research 开源了长上下文预训练机制 Lighthouse Attention。在单张 B200 显卡上处理 512K 长度文本时,该方案的计算速度比传统机制快约 17 倍,并在 98K 长度下实现了 1.4 到 1.7 倍的端到端训练提速。

传统注意力机制需要计算所有字词的两两关系,文本一长,算力消耗就会呈平方级暴涨。Lighthouse Attention 改用先粗筛再精算的思路。它会先在不同层级快速浏览文本的压缩摘要,通过打分挑出核心片段拼成短文本,然后直接交给现成的高效算子 FlashAttention 处理。由于筛选逻辑被彻底剥离到了内核之外,开发者直接省去了手写底层代码的麻烦,也不用增加额外的训练目标。

过去采用类似思路的加速方案常有副作用,模型习惯跳跃阅读后,极易丧失原本逐字精读的能力。为了避开这个陷阱,研发团队让模型先用加速模式跑完绝大部分进度,只在训练末尾短暂切回传统的全注意力计算稍作适应。在针对 5.3 亿参数规模的模型、投喂 500 亿 Token 训练数据的实测中,这样练出的模型不仅大幅缩短了耗时,最终表现还全面追平甚至反超了全程使用传统方式训练的基线版本。

赞(0)
未经允许不得转载:币须知道 » Nous开源Lighthouse Attention:单B200跑512K提速17倍

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址