近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为语言理解与生成带来了前所未有的突破。
然而,随着模型规模的不断扩大和应用场景的日益复杂,传统 Transformer 架构逐渐暴露出缺陷,尤其是在处理长文本、关键信息检索以及对抗幻觉等任务时,Transformer 常常因过度关注无关上下文而陷入困境,导致模型表现受限。
为攻克这一难题,来自微软和清华的研究团队提出了DIFF Transformer,一种基于差分注意力机制的创新基础模型架构。
论文标题:Differential Transformer论文链接:https://openreview.net/pdf?id=OvoCm1gGhN代码链接:https://aka.ms/Diff-Transformer
其核心思想是通过计算两组 Softmax 注意力图的差值来放大对关键上下文的关注,同时消除注意力噪声干扰。DIFF Transformer 具备以下显著优势:
在语言建模任务中,DIFF Transformer 在模型大小、训练 token 数量等方面展现出了卓越的可扩展性,仅需约 65% 的模型规模或训练 token 数量即可达到与传统 Transformer 相当的性能,大幅提升了语言模型通用表现。
在长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等一系列任务中,DIFF Transformer 展现了独特优势,相比传统 Transformer 有显著提升。
DIFF Transformer 的特性使其在自然语言处理领域具有广阔的应用前景,有望成为推动语言模型发展的新动力。此外,已有跟进研究初步验证方法在视觉、多模态等领域中的有效性,显示出其跨模态通用的潜力。该研究已被 ICLR 2025 接收,并获选为 Oral 论文(入选比例 1.8%)。
方法
本文提出了一种名为 Differential Transformer(DIFF Transformer) 的基础模型架构,旨在解决传统 Transformer 在长文本建模中对无关上下文过度分配注意力的问题。该方法通过差分注意力机制(Differential Attention)放大对关键上下文的关注,同时消除注意力噪声,从而显著提升模型在多种任务中的性能。
差分注意力机制
传统 Transformer 的注意力机制通过 Softmax 函数对输入序列中的不同 token 进行加权,但 Softmax 的性质导致模型难以完全消除无关上下文的影响。为了克服这一问题,DIFF Transformer 引入了差分注意力机制。
具体而言,该机制将查询向量(Query)和键向量(Key)在注意力头(Head)维度分为两组,分别计算两组的 Softmax 注意力图,然后计算两者的差值作为最终的注意力分数。这一设计类似于电子工程中的差分放大器,以及降噪耳机,通过两组信号相减以消除共有噪声。
差分注意力的数学表达如下:
图 2. Transformer 与 DIFF Transformer 注意力分数分布可视化
图 2 展示了 DIFF Transformer 和传统 Transformer 在注意力分数分配上的显著差异。作者将一段关键信息插入大段不相关文本的中间位置,并对模型抽取关键信息时的注意力分数分配进行可视化。
传统 Transformer 的注意力分数被广泛分配到整个上下文中,只有极少分数分配至关键信息;而 DIFF Transformer 能够将更高的分数集中在目标答案上,并且几乎不向无关上下文分配注意力。
注意力分数分配的稀疏性与精准性也使得 DIFF Transformer 在处理长文本关键信息检索任务时显著优于 Transformer。
实验
作者通过一系列实验验证了 DIFF Transformer 在多个方面的卓越性能,证明了其在大语言模型中应用的独特潜力与优势。
语言建模
作者研究了 DIFF Transformer 在扩展模型规模和训练数据量时的性能,如图 3 所示。实验表明,DIFF Transformer 仅需约 65% 的参数规模或训练数据量即可达到与 Transformer 相当的语言建模性能。例如,6.8B 参数规模的 DIFF Transformer 在语言建模损失上与 11B 参数规模的 Transformer 相当。
图 3. 语言建模上的模型参数、训练数据量可扩展性实验
长文本建模
作者将模型扩展到 64K 上下文长度,并在长文本书籍数据上进行了评估。结果显示,考虑累积平均负对数似然(NLL)指标, DIFF Transformer 在不同序列位置上均优于 Transformer,能够更有效地利用长上下文信息。
图 4. 长文本书籍数据模型性能评估
关键信息检索
作者通过「多针检索」(Multi-Needle Retrieval)实验评估了模型从大量上下文中提取关键信息的能力,如图 5 所示。实验表明,DIFF Transformer 在不同上下文长度和答案深度下均表现出更高的准确率,尤其是在文本较长以及答案位于文本更靠前位置时,优势更为明显。例如,在 64K 上下文中,DIFF Transformer 在答案位于 25% 深度时的准确率比 Transformer 高出 76%。此外,统计信息显示,DIFF Transformer 在注意力分数分配上也表现出更高的聚焦能力,能够准确定位关键信息,并展现了更高的信噪比。
图 5. 多针检索评估
上下文学习
作者从两个角度评估了 DIFF Transformer 的上下文学习能力:多样本上下文学习和样本顺序鲁棒性测试。 如图 6 所示,在多样本上下文学习任务中,作者使用了 4 个不同的数据集(TREC、TREC-fine、Banking-77 和 Clinic-150),并逐步增加示例数量,直到总长度达到 64K tokens。结果显示,DIFF Transformer 在不同数据集上均优于 Transformer,平均准确率提升显著。
图 6. 多样本上下文学习
在鲁棒性测试中,作者通过打乱示例顺序的方式评估了模型的性能稳定性。如图 7 所示,DIFF Transformer 在不同示例排列下的性能方差显著低于 Transformer,表明其对输入顺序的敏感性更低,具有更强的鲁棒性。
图 7. 样本顺序鲁棒性测试
幻觉评测
作者利用文本摘要和问答任务作为两个典型的幻觉评测场景,评估了 DIFF Transformer 在降低大模型幻觉(hallucination)方面的表现。结果如图 8 所示,DIFF Transformer 在生成摘要和回答问题时显著提升了准确率,减少了幻觉现象。这是因为差分注意力机制能够准确定位重要文段,避免无关上下文对模型预测的干扰。
图 8. 利用文本摘要、问答任务进行幻觉评测
异常激活值分析
作者还发现 DIFF Transformer 能够显著减少模型激活中的异常值,这为模型激活值的量化提供了新的可能性。实验表明,DIFF Transformer 在注意力激活值(attention logits)和隐藏状态(hidden states)中的最大激活值显著低于 Transformer。例如,在注意力激活值的 Top-1 激活值上,DIFF Transformer 比 Transformer 低了近 8 倍。利用这一性质,DIFF Transformer 在注意力激活值的低比特量化下的性能也优于 Transformer,如图 9 所示。
图 9. 注意力激活值的低比特量化
数学推理能力
作者在数学推理任务上进一步验证了 DIFF Transformer 的性能。作者采用两阶段训练,在 3B 预训练模型的基础上进行有监督微调,并在 MATH 等 8 个数学数据集上评测模型性能。在第一阶段,采用 20B token 合成数学数据对模型进行微调,使模型获得基础数学能力,评测结果如图 10 所示。从 15B token 开始,DIFF Transformer 展现出了显著优于 Transformer 的数学能力,至 20B token 结束的时候,准确率的差距达到了 11% 左右。
图 10. 第一阶段数学合成数据微调
在第二阶段,作者利用 Deepseek-R1 输出所构造的数据集 OpenThoughts-114K-Math 对模型进行蒸馏,使模型更强大的深度推理能力。如图 11 所示,在 8 个数据集上,DIFF Transformer 相较 Transformer 均有不同程度的提升,平均准确率提升了 7.5%,这表明差分注意力机制更强大的上下文建模能力在推理任务中也至关重要。
图 11. 第二阶段深度推理能力评测
讨论与未来工作
DIFF Transformer 自发布以来获得了较大关注与讨论。作者在Hugging Face论文讨论平台、alphaXiv平台上与社区开展了深入的探讨。在 X 平台(原 Twitter)上,Google DeepMind 高级研究科学家(Senior Staff Research Scientist)Petar Veličković与作者就文章中的理论分析展开讨论,ViT 核心作者Lucas Beyer也在阅读文章后撰写了一篇深入的论文总结,相关发帖已获得数十万浏览。目前 DIFF Transformer 也已集成至 Hugging Face 的transformers 库中。
Hugging Face:https://huggingface.co/papers/2410.05258alphaXiv:https://www.alphaxiv.org/abs/2410.05258v1Petar Veličković:https://x.com/PetarV_93/status/1874820028975267866Lucas Beyer:https://x.com/giffmana/status/1873869654252544079transformers库:https://github.com/huggingface/transformers/tree/main/src/transformers/models/diffllama
未来工作方面,作者认为可以利用 DIFF Transformer 的性质设计低比特注意力算子,以及利用差分注意力的稀疏特性进行键值缓存(key-value cache)的剪枝。此外,将 DIFF Transformer 应用在除语言以外的其他模态上也值得探索。近期工作DiffCLIP将差分注意力扩展至视觉、多模态领域,揭示了 DIFF Transformer 在不同模态任务中的更多结构特性与应用潜力。
DiffCLIP:https://arxiv.org/abs/2503.06626
总结
本文的贡献主要在两个方面:
(1)DIFF Transformer 通过创新的差分注意力机制,有效解决了传统 Transformer 在处理文本时受到噪声干扰、注意力分配不准确的问题;
(2)凭借对关键信息的关注和对噪声的抵御能力,DIFF Transformer 在语言建模、长文本建模、关键信息检索、数学推理、对抗幻觉、上下文学习、模型激活值量化等任务中表现出色,有望在自然语言处理、多模态等领域作为基础模型架构。
《做瑜伽的妈妈林雅卿小说免费阅读》,《w3u7903ejky2ywls》最新六月❤️偷拍
“女学生爆汁❌❌❌电视”
九色少妇丨PORNY丨自拍
……
05月05日
“娜扎张开腿让我爽了一夜”Doinb暗示Kid不如Ning
↓↓↓
05月05日,广东丹霞山再添3个新物种,校园全黄H全肉全文,师母归来2高清在线播放,99国产白丝美腿极品AV,女畜养殖场1-10章读书笔记
05月05日,中新健康丨新疆兵团:医疗资源下沉普惠千家万户,成人扒开🍑伸进🍌❌电,黑人狂躁刘亦菲40分钟,白丝校花🌸让我C在线观看91,3DcartoonGay男男网站
05月05日,美国马萨诸塞州一小型飞机失事 造成多人死亡,扒开原神❌狂揉❌难受3d动漫,XXXX43🍆🍆🍆HD免费,DH-NVR4116HS-HD,性XXX巩俐XXXHD
05月05日|今年春运买火车票有什么新变化?这份购票攻略请收好|张婉莹被弄高潮了几次|蜜桃AV㊙️无码一区二区|白丝小乔好紧⋯好大好爽动漫|附近学生24小时服务内容
05月05日|加拿大将也门胡塞武装列为“恐怖组织”|👙🈲㊙️游戏免费网站入|u蓝正太视频破解v3.0.8更新内容|裸体裸乳被91|民工粗大不戴套怀孕
05月05日|“熊猫叨叨·我与中国的故事”高校国际学生中文演讲大赛决赛在沪落幕|小马拉大车妈妈真实身世|温迪榨精h文|被体育生抱进小树林c个爽|小心🐤入🍑🍑视频……
05月05日,京津地区高温天气持续,卫生间深深挺进老师小泬漫画大全,Anime Hentai XXXXX vore,两个奶被揉的又硬又翘是双胞胎吗,国产❌❌❌18🈲㊙️69
05月05日,湖北襄阳:“头鱼”竞拍助推生态保护,女s丝袜圣水调教男奴,美女露出让客人玩,破尽玉门关电影免费播放,美杜莎女王畅玩20
05月05日|全方位多领域“昂首阔步”启新程 中国高质量发展质效稳步提升|免费成人结婚|美女挠脚心㊙️免费网站|小雨┅┅快┅┅用力啊视频|男同🔞被🌿出水com.
05月05日,安徽池州:一根竹子兴村庄卖全球,深夜成人🔞🈲视频在线,美女裸体❌开腿羞羞私房照,汚电せんせい作者漫画合集,米奇影视盒第四88888
05月05日,闽台青年福建泉州共庆妈祖文化节,米塔涩涩同人18禁本子,免费裸体🔞🔞🔞,4i调教高潮四爱pegging,piroro学生
05月05日,西藏拉萨市墨竹工卡县发生3.4级地震 震源深度10千米,9.1免费版高风险安装,91丨熟女丨丰满熟女,furry狼人男同榨精milk,少妇扒开双腿自慰出白浆视頻
05月05日|郑钦文夺得WTA500东京站冠军|美女露大胸㊙️洗澡跳舞|男总裁被C哭还流着尿高H漫画|A片免|动漫美女大🐻200裸露
05月05日|习近平同英国首相斯塔默通电话|神印王座圣采被❌吸乳|哈啊~c到高C了赵云貂蝉|爽⋯好大⋯快⋯深点日本网站|浣肠➕憋尿➕调教浣肠网站
05月05日|厦门绘就高素质高颜值现代化国际化城市画卷|免费成人深夜夜行网站|玩小男生的小嫩脚网站|国产九色sp调教69|祖英裸体双乳呻吟
高校发讣告悼念梅大高速遇难学子,PRX获得无畏契约邀请赛冠军|中国组合进入双向飞碟混合团体铜牌争夺战|捆绑➕调教➕sm➕束缚车|91探花国产综合在线精品作者|日本无码sM捆绑调教视频|男女那个视频
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺