梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
创始人
2026-01-13 14:40:33

来源:新京报

新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单最后。这篇论文为北京大学和DeepSeek共同完成。

新京报贝壳财经记者浏览发现,这篇论文的核心直指当前大语言模型存在的记忆力“短板”,提出了“条件记忆”这一概念。

为了实现“条件记忆”,DeepSeek提出的解决方案是一个名为Engram(直译为:记忆痕迹)的模块,它将语言建模任务拆解为“静态模式检索”与“动态组合推理”两大分支:前者负责实体、固定短语等确定性知识的快速调取,后者则交由Transformer架构专注完成复杂逻辑运算。

论文最后表示,“我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。”

当前,有不少声音猜测DeepSeek的下一代模型将于春节前发布,复现2025年春节期间盛况。这一背景下,此篇论文或为模型的“庐山真面目”提供了方向。

编辑 杨娟娟

校对 杨利

相关内容

热门资讯

月租最低的手机卡怎么选?202... 办卡关注 微 信 公 众 号 :找卡乐园 这里是专为你打造的流量卡服务站,既能帮你揭开流量卡市场的各...
一浦莱斯取得热熔钻铆连接装备系... 国家知识产权局信息显示,一浦莱斯精密技术(深圳)有限公司取得一项名为“一种热熔钻铆连接装备系统及铆钉...
原创 马... 哈喽,各位读者朋友,我是小玖。 当科幻电影中用意念操控万物的场景,突然被世界首富设定了一个清晰的时间...
报告:工厂智能化呈现“东高、中... 中新网北京1月13日电 (记者 尹倩芸)13日在北京发布的《2025中国产业带发展趋势报告》显示,从...
力鸿一号飞行器首秀 瞄准可复用... 中新社北京1月13日电 题:力鸿一号飞行器首秀 瞄准可复用太空实验平台与太空旅游未来 中新社记者 马...