梁文锋亲自上阵、亲自提交！DeepSeek发布新技术论文_资讯

创始人

2025-02-19 04:20:59

三言科技消息 DeepSeek刚刚宣布提交了新的技术论文，是关于NSA（Natively Sparse Attention，原生稀疏注意力），官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

值得注意的是，DeepSeek创始人梁文锋是作者之一。可见他确实是热衷于技术研究的人。

梁文锋还亲自提交了这篇论文。

论文标题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”（原生稀疏注意力：硬件对齐和原生可训练的稀疏注意力）。

摘要如下：

长上下文建模对下一代大语言模型至关重要，但标准注意力机制的高计算成本带来了重大的计算挑战。

稀疏注意力为提高效率提供了一个有希望的方向，同时保持模型能力。我们介绍NSA，一种原生可训练的稀疏注意力机制，它将算法创新与硬件对齐优化相结合，以实现高效的长上下文建模。NSA采用动态分层稀疏策略，将粗粒token压缩与细粒token选择相结合，以保持上下文意识和本地精度。

我们的方法通过两项关键创新来推进稀疏的注意力设计：

（1）我们通过算术强度平衡算法设计，以及对现代硬件实现优化，实现了大幅度的加速。

（2）我们启用端到端训练，在不牺牲模型性能的情况下减少训练前计算。

实验显示，使用NSA预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过全注意力模型。与此同时，NSA在解碼、向前传播和向后传播的64k长度序列上实现了比Full Attention的大幅加速，验证了其在整个模型生命周期中的效率。

从时间上看，梁文锋是在周日16号提交的论文，然后在第二天，也就是昨天出席了民营企业座谈会。

来源：三言Pro