DeepSeek 发布梁文锋署名新论文，提前剧透 V4 新架构

2026-01-16 15:35

来源： OFweek人工智能网

刚刚，一篇由梁文锋署名、北京大学王选所赵东岩和张辉帅团队参与的 DeepSeek 论文发布了。

这一次，DeepSeek 引入条件记忆作为补充的稀疏性轴，并通过 Engram 模块实现更高效的知识查找机制。

通过构建稀疏性分配问题，团队发现了一个 U 形扩展规律，在该规律的指导下将 Engram 扩展到 270 亿个参数，其性能优于严格等参数、等浮点运算次数的 MoE 基线模型。

值得注意的是，记忆模块在通用推理和代码/数学领域的提升更为显著。机制分析表明，Engram 减轻了骨干网络早期层静态重构的负担，有效加深了网络以进行复杂推理。

通过将局部依赖关系委托给查找操作，Engram 释放了注意力资源用于全局上下文，从而显著提升了长上下文检索能力。

Engram 模块架构

Engram 是一个条件记忆模块，旨在通过在结构上将静态模式存储与动态计算分离来增强 Transformer 主干网络。

团队实现了一个基于规范化文本等价性的词汇投影层标识符。对于 128k 分词器，该过程可使有效词汇量减少 23%。

为了增强表达能力，他们采用了一种受注意力机制启发的上下文感知门控机制。针对扩展感受野并增强模型的非线性，团队引入了一个短的深度因果卷积。

Engram 系统分为两个阶段：

训练阶段：海量嵌入表被分片到可用的 GPU 上。采用全对全通信原语来跨设备检索活动嵌入行；
推理阶段：Engram 表被卸载到主机内存。利用确定性检索逻辑，主机异步预取并传输嵌入，与设备端先前 Transformer 模块的计算重叠通信。

团队采用了先进的多分支架构作为默认骨干网络，该架构具有卓越的建模能力。

自然语言的 N-gram 本质上遵循齐普夫分布，这种统计特性促使团队采用多级缓存层次结构。这种分层结构使得 Engram 能够扩展到海量内存容量，同时将有效延迟的影响降至最低。

大规模预训练

基于 Engram 架构和经验推导的分配规则，研究人员将 Engram 扩展到数十亿参数规模。他们训练了四个模型：

（1）Dense-4B（总参数 41 亿）

（2）MoE-27B（总参数量为 267 亿）（3）Engram-27B（总参数量为 267 亿）（4）Engram-40B（总参数量为 395 亿）

结果显示，Engram-27B 仅使用 82% 的预训练 FLOPs（41k 对比 50k）即可达到基线模型 LongPPL 的性能，同时在 RULER 任务上取得了显著更高的准确率。

在相同的预训练损失 (46k) 和相同的预训练 FLOPs (50k) 设置下，Engram-27B 在所有指标上均显著优于基线模型。

更重要的是，Engram-27B 的性能始终优于基于等参数和等浮点运算次数的 MoE-27B 基线模型。这些提升并非仅限于知识密集型任务，而包含了一般推理领域以及代码和数学推理领域。

在长上下文的情景训练中，研究团队发现长上下文性能并非完全由架构先验决定。即使在上下文扩展阶段控制相同的模型架构和固定的计算预算，长上下文性能仍然随着预训练的进行而单调提升。这表明长上下文性能与基础模型的一般建模能力密切相关。因此，严格的架构比较必须通过调整基础模型的损失来控制这一混淆变量，而不仅仅是调整训练步骤。