刚刚,一篇由梁文锋署名、北京大学王选所赵东岩和张辉帅团队参与的 DeepSeek 论文发布了。
这一次,DeepSeek 引入条件记忆作为补充的稀疏性轴,并通过 Engram 模块实现更高效的知识查找机制。
通过构建稀疏性分配问题,团队发现了一个 U 形扩展规律,在该规律的指导下将 Engram 扩展到 270 亿个参数,其性能优于严格等参数、等浮点运算次数的 MoE 基线模型。
值得注意的是,记忆模块在通用推理和代码/数学领域的提升更为显著。机制分析表明,Engram 减轻了骨干网络早期层静态重构的负担,有效加深了网络以进行复杂推理。
通过将局部依赖关系委托给查找操作,Engram 释放了注意力资源用于全局上下文,从而显著提升了长上下文检索能力。
Engram 模块架构
Engram 是一个条件记忆模块,旨在通过在结构上将静态模式存储与动态计算分离来增强 Transformer 主干网络。
团队实现了一个基于规范化文本等价性的词汇投影层标识符。对于 128k 分词器,该过程可使有效词汇量减少 23%。
为了增强表达能力,他们采用了一种受注意力机制启发的上下文感知门控机制。针对扩展感受野并增强模型的非线性,团队引入了一个短的深度因果卷积。
Engram 系统分为两个阶段:
团队采用了先进的多分支架构作为默认骨干网络,该架构具有卓越的建模能力。
自然语言的 N-gram 本质上遵循齐普夫分布,这种统计特性促使团队采用多级缓存层次结构。这种分层结构使得 Engram 能够扩展到海量内存容量,同时将有效延迟的影响降至最低。
大规模预训练
基于 Engram 架构和经验推导的分配规则,研究人员将 Engram 扩展到数十亿参数规模。他们训练了四个模型:
(1)Dense-4B(总参数 41 亿)
(2)MoE-27B(总参数量为 267 亿)(3)Engram-27B(总参数量为 267 亿)(4)Engram-40B(总参数量为 395 亿)
结果显示,Engram-27B 仅使用 82% 的预训练 FLOPs(41k 对比 50k)即可达到基线模型 LongPPL 的性能,同时在 RULER 任务上取得了显著更高的准确率。
在相同的预训练损失 (46k) 和相同的预训练 FLOPs (50k) 设置下,Engram-27B 在所有指标上均显著优于基线模型。
更重要的是,Engram-27B 的性能始终优于基于等参数和等浮点运算次数的 MoE-27B 基线模型。这些提升并非仅限于知识密集型任务,而包含了一般推理领域以及代码和数学推理领域。
在长上下文的情景训练中,研究团队发现长上下文性能并非完全由架构先验决定。即使在上下文扩展阶段控制相同的模型架构和固定的计算预算,长上下文性能仍然随着预训练的进行而单调提升。这表明长上下文性能与基础模型的一般建模能力密切相关。因此,严格的架构比较必须通过调整基础模型的损失来控制这一混淆变量,而不仅仅是调整训练步骤。
Engram 的内部机制分析
有效深度
研究人员使用 LogitLens分析各层预测结果的演变。
通过显式地访问外部知识,Engram 减少了所需的计算步骤,从而在网络层级结构的早期阶段就获得了高置信度的有效预测。
通过绕过显式查找进行早期特征合成,Engram 在功能上等同于增加模型的有效深度。
模块设置
他们在受控环境下对 Engram 进行消融,以研究每个关键模块设计的有效性。
结果表明,随着插入点深入,性能逐渐下降。只需一轮注意力机制即可提供有意义的上下文相关的 hfor 门控,同时还能及时替换骨干网底层的局部聚合。
参数敏感性
研究人员通过在推理过程中完全抑制稀疏嵌入输出来评估模型。
基准测试结果急剧下降,仅保留了原有性能的 29% 至 44%,这证实了记忆痕迹模块是参数知识的主要存储库。
相反,阅读理解任务表现出惊人的恢复能力,保留了 81%至 93% 的性能,这表明基于上下文的任务主要依赖于主干网络的注意力机制,而非记忆痕迹。
团队还发现,卸载 100B 参数的嵌入表对吞吐量的影响可以忽略不计,在 8B 主干网上的峰值仅为 2.8%。
Engram 将基础设施感知效率作为首要设计原则。其确定性寻址实现了存储和计算的解耦,从而能够将海量参数表卸载到宿主内存,而推理开销却可以忽略不计。相关人员表示,条件内存函数将成为下一代稀疏模型不可或缺的建模原语。
参考资料:
https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf
·
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论