梁文锋亲自上阵、亲自提交!DeepSeek发布新技术论文
创始人
2025-02-19 04:20:59

三言科技消息 DeepSeek刚刚宣布提交了新的技术论文,是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

值得注意的是,DeepSeek创始人梁文锋是作者之一。可见他确实是热衷于技术研究的人。

梁文锋还亲自提交了这篇论文。

论文标题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”(原生稀疏注意力:硬件对齐和原生可训练的稀疏注意力)。

摘要如下:

长上下文建模对下一代大语言模型至关重要,但标准注意力机制的高计算成本带来了重大的计算挑战。

稀疏注意力为提高效率提供了一个有希望的方向,同时保持模型能力。我们介绍NSA,一种原生可训练的稀疏注意力机制,它将算法创新与硬件对齐优化相结合,以实现高效的长上下文建模。NSA采用动态分层稀疏策略,将粗粒token压缩与细粒token选择相结合,以保持上下文意识和本地精度。

我们的方法通过两项关键创新来推进稀疏的注意力设计:

(1)我们通过算术强度平衡算法设计,以及对现代硬件实现优化,实现了大幅度的加速。

(2)我们启用端到端训练,在不牺牲模型性能的情况下减少训练前计算。

实验显示,使用NSA预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过全注意力模型。 与此同时,NSA在解碼、向前传播和向后传播的64k长度序列上实现了比Full Attention的大幅加速,验证了其在整个模型生命周期中的效率。

从时间上看,梁文锋是在周日16号提交的论文,然后在第二天,也就是昨天出席了民营企业座谈会。

来源:三言Pro

相关内容

热门资讯

原创 6... 最近大家有没有发现,我们刚把手里的4G手机换成5G没几年,甚至很多人的5G套餐还没捂热乎,科技圈突然...
酷我音乐亮相2026深圳国际耳... 5月16日,2026深圳国际耳机展在福田会展中心正式启动,贴合便携音频系统领域发展趋势,云集300多...
神舟二十三号近日发射,来自港澳... 神舟二十三号船箭组合体已转运至发射区,近日将择机发射。 5月16日上午,在酒泉卫星发射中心,承载着长...
小王争夺战!JDG与AL谁将在... 2026年LPL第二赛段组内赛赛程步入尾声,5月17日将迎来至关重要的收官对决。当日两场重磅赛事依次...
原创 三... 在王者荣耀中,目前有三款传说皮肤是已经确定的,但具体上线时间还没有确定。不过有两款传说皮肤的上架时间...