陕西铁皮保温_鑫诚防腐保温工程有限公司
克拉玛依铝皮保温厂家 DeepSeek &北大用 Engram 改造 Transformer 架构记忆力,为 V4 新模型预热?
产品中心

克拉玛依铝皮保温厂家 DeepSeek &北大用 Engram 改造 Transformer 架构记忆力,为 V4 新模型预热?

铁皮保温

  北京时间 1月13日 凌晨,DeepSeek 发布题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》的论文。作者列表中创始人梁文锋的名字赫然在列,业界普遍认为这有可能是 DeepSeek V4 或下一代稀疏模型的核心架构雏形。

  这篇论文的核心价值不在于刷榜,而在于提出了一种新的计算范式——通过引入 Engram 模块,解决 Transformer 架构在知识检索上的率瓶颈。

  对于开发者而言,理解这一架构有助于看清未来 API 服务“降本增”的技术路径。以下是核心技术拆解:

  Transformer 的“伪检索”机制

  在现有的 Transformer(含 MoE)架构中,模型并不具备原生的“查表”能力。当模型需要处理事实知识(例如补全“Diana, Princess of Wales”)时,它须动用多层注意力机制(Attention)和前馈网络(FFN),通过昂贵的矩阵运算来“模拟”检索过程,逐步还原出“Wales”这个词。

  论文指出这种“由算生智”的方式,本质上是用高昂的算力去重建静态的查表逻辑,是对计算资源的大浪费。

  Engram 架构,回归 O(1) 查表

  DeepSeek 提出的解决方案是 Engram,其设计思路非常直接:将“死记硬背”的任务从神经网络中剥离。

  原理:引入经典的 N-gram 机制并现代化。将大量静态知识(如固定短语、实体名称)映射为向量,存储在一个巨大的哈希表中。

  流程:模型在理时,直接通过哈希索引去表里 Lookup,时间复杂度仅为 O(1)。

  分工:Engram 负责处理静态的世界知识,MoE 负责处理复杂的动态理。

  反直觉的“能力涌现”

  引入“外挂字典”后,模型是否会退化?实验数据表明,设备保温施工Engram-27B 在同等激活参数和计算量(Iso-FLOPs)下,表现优于纯 MoE-27B 基线:

手机:18632699551(微信同号)

  知识密度提升:MMLU、CMMLU 等知识类基准测试得分显著提高。

  理能力增强:这是一个关键发现。由于 Engram 承担了记忆负担,Transformer 的深层网络被释放出来处理更复杂的逻辑。因此,在 Code(HumanEval +3.0)、Math(MATH +2.4)和 Reasoning(BBH +5.0) 任务上,模型能力反而变强了。

  长上下文优化:在“大海捞针”(NIAH)测试中,准确率从 84.2% 提升至 97.0%。

  API 成本将“膝盖斩”?

  对于 API 使用者,该论文大的利好在于系统率(System Efficiency)。

  传统的 MoE 模型为了保证速度,须将参数加载到昂贵的 GPU 显存(HBM)中。而 Engram 的查表机制是确定(Deterministic)的——系统可以预知下一层需要查什么。

  这意味着“内存卸载”成为可能:

  DeepSeek 成功将 100B(千亿) 参数的 Engram 表放入便宜的 CPU 内存(RAM)。

  利用 CPU-GPU 异步流水线,理吞吐量损耗 < 3%。

花300美元,就能在AI伴侣程序Replika上买到一款AI伴侣。如今,AI伴侣正成为一些人摆脱孤独的新选择。

疾风暴雨下,新能源汽车是否有漏电风险呢?科技日报记者就此采访了相关家,为您答疑解惑。

  未来的大模型服务可以在不增加昂贵 HBM 预算的前提下,大幅扩展模型参数。这直接指向了 API 价格的进一步下探 和 并发能力的提升。

  七牛云已就位,承接技术红利

  DeepSeek 的技术迭代证明,AI 基础设施正在从“暴力堆算力”转向“架构换率”。作为国内领先的 AI 理服务平台,七牛云 AI 大模型广场已构建了适配高并发、异构存储的算力基座,始终与 DeepSeek 保持零时差的技术同步。