6163银河.net163.am(中国·官方网站)-Webgame Platform

首页 >新闻 >社会新闻

扩散语言模型九倍推理加速！KV Cache并非自回归模型专属

2025-06-03 08:14:57

来源：

猫眼电影

作者：

马新岚

手机查看

　　猫眼电影记者马天宇报道w3u7903ejky2ywls

EPIC Lab团队投稿量子位 | 公众号 QbitAI

首个用于加速扩散式大语言模型（diffusion-based Large Language Models, 简称 dLLMs）推理过程的免训练方法。

上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制：dLLM-Cache。

其核心思想在于，在一个多步去噪过程中，复用相邻时间步上变化较小的特征，仅更新那些变化较大的特征，从而实现了计算量的大幅降低，并保持了原有的生成质量。

图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比

dLLM-Cache具有几个重要的亮点：

1. 训练无关，即插即用。dLLM-Cache完全在推理过程中工作，无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量的前提下，带来最高9.1倍的推理速度提升。

2.通用于主流dLLM架构，如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。

3. 在推理过程中，首次识别出了prompt部分的Transformer中间层特征（Key、Value、Attention output、FFN output）长期稳定，而response部分仅有一小部分tokens的特征变化较大，为缓存特征并后续复用提供了理论基础。

4. 独创了以V-verify机制为核心的选择更新策略。以Value向量的变化为选择基准，成功识别出了response部分变化较大的那些tokens，通过仅更新这些特征，摒弃了高达75%的冗余计算。

本论文共同第一作者刘知远和杨奕存是哈尔滨工业大学2022级本科生，目前在上海交通大学EPIC Lab进行科研实习，师从张林峰助理教授，主要研究方向为高效深度学习，此前曾在CVPR2025上收获满分论文。

接下来，我们一起来看看该研究的细节。

研究动机

基于扩散的大语言模型正成为语言生成领域最受关注的新范式之一。随着模型架构的发展、去噪算法的优化以及Masked Diffusion在语言建模中逐步展现出与自回归模型不同的建模能力，这类模型正在逐步成为挑战 GPT 等主流模型的重要力量。

以LLaDA、Dream为代表的扩散语言模型，基于迭代去噪的生成过程，不再依赖严格的自回归因果结构，天然支持双向建模、全局依赖和反向推理等能力，已经在“逆转诅咒”、数学推理等任务上展现出领先性能。

然而，这种范式的优势也伴随着巨大的代价。为了确保生成的质量，dLLMs在推理过程中通常需要执行长达数百步的去噪迭代，每一步都需重新计算attention、FFN等所有层的特征，计算量相当于多次完整前向传播。这为dLLMs的推理效率带来了严重的瓶颈，制约了其实际部署。更重要的是，主流的加速手段如用于自回归模型的KV Cache，由于不兼容双向注意力架构，在dLLMs中完全失效。

与传统的自回归语言模型不同，dLLMs不再依赖顺序生成下一个token，而是采用随机遮蔽(mask) + 逐步还原的方式建模token分布，这种机制使得模型具备天然的双向建模能力，理论上能够更好地处理逆向逻辑、长距离依赖等任务。

LLaDA 等模型已经在多个基准任务中超越主流ARMs，尤其在“逆转诅咒”上明显胜出。

然而，这种扩散式推理带来一个严重的挑战：为了确保生成质量，dLLMs通常需要上百步的去噪迭代，每一步都需全量计算Attention、FFN等模块，导致其推理速度相比ARMs慢一个数量级，落地成本高。同时，ARMs 通用的加速方法如KV-Cache因dLLMs的双向注意力设计而无法兼容。这些造成了dLLMs在推理时既慢又缺乏加速手段的现象。这正是 dLLM-Cache所要破解的核心问题。

方法简介

本文作者仔细研究了dLLMs推理的中间特征变化过程，发现如下关键现象：

图2 dLLM中两个相邻去噪步骤之间的Key、Value、Attention Output和FFN Output的余弦相似度

Prompt tokens的特征在整个去噪过程中基本保持稳定，每一步都重新计算这些特征是完全不必要且浪费计算资源的；

Response tokens多数变化很小，仅少部分变化剧烈，全量计算所有response tokens存在冗余。

由此，问题转化为了如何高效识别出这些变化剧烈的response tokens。

图3 Response tokens的K或V变化与其他特征变化的相关性

本文作者首创性得提出了V-verify机制。它的提出源于另一项重要的发现：作者量化了response tokens的底层特征（Key, Value向量）的变化与其上层复杂特征（Attention Output, FFN Output）的变化之间的关系，结果显示它们存在着极强的正相关性，皮尔逊相关系数最高可达0.944。

这意味着，一个token底层的Value向量是否发生变化，是其整体状态是否发生改变的一个极佳的、且计算成本极低的“指示器”。

基于以上这些关键的观察，本文作者提出了dLLM-Cache ，具体的框架设计如下：

图4 dLLM-Cache方法整体pipeline

Prompt缓存：长间隔重用

对于prompt部分，作者设计了长间隔Prompt缓存，每隔Kp步（在实验中一般设置为100）更新一次prompt的Key、Value、Attention Output、FFN Output，其余步骤全部复用先前结果。这样避免了对稳定不变的特征的重复计算，大幅减少了计算量

Response缓存：自适应部分更新

对生成目标response区域，由于response tokens的特征并不是一直保持稳定不变的，作者设计了较短间隔的Response缓存，每隔Kr步（在实验中一般设置为8左右）全量更新一次response的Key、Value、Attention Output、FFN Output，在其余的步骤，作者提出了基于V-verify的自适应缓存策略

在每个去噪步骤，首先计算所有response tokens最新的Value向量。然后，通过计算新Value向量与缓存中旧Value向量的余弦相似度，将余弦相似度作为每个response tokens的一个“变化分”。选出“变化分”最高（即相似度最低）的极少数tokens（例如，变化最剧烈的25%），将它们标记为“待更新” 。最后，模型只对这些被标记的“待更新”tokens，进行完整的特征重计算。而其余75%的“稳定”tokens，则继续高效地从缓存中复用其特征

通过这种“长间隔”与“自适应”相结合的缓存策略，dLLM-Cache在Transformer的每一层都实现了计算量的极致优化，且整个过程无需任何额外训练，做到了真正的即插即用

3 实验结果

本文在 LLaDA 8B和Dream 7B两大代表性的开源dLLM的基础版与指令微调版上，针对数学与科学、通用任务、代码生成三大领域的8个主流基准测试，对dLLM-Cache的有效性进行了严苛的检验。评估维度不仅包括推理速度（TPS）计算效率（FLOPs），更核心的是模型性能得分（Score），以确保加速不是以牺牲模型能力为代价

本文在LLaDA 8B的基础版和指令微调版上都部署了dLLM-Cache，下图的实验结果充分展示了其强大的加速能力和卓越的生成质量保持。在几乎所有的基准测试中，达到了5倍以上的加速效果，且在绝大部分情况下，生成质量都没有降低，甚至有轻微的提升。特别是当面对LongBench任务时，prompt的稳定性带来了更显著的加速效果，在HotpotQA上实现了高达9.1倍的无损加速

图5 dLLM-Cache在LLaDA模型上的效果

为了进一步证明dLLM-Cache的通用性和鲁棒性，作者将其无缝迁移至另一款架构略有不同的dLLM——Dream 7B上。下图的实验结果再次印证了dLLM-Cache方法的有效性，充分说明了其通用于主流dLLM架构

图6 dLLM-Cache在Dream模型上的效果

作者还将dLLM和主流的基于ARM的LLM进行了对比，下图展示了LLaDA 8B与LLaMA3 8B在GSM8K任务上的比较。结果显示，原始的LLaDA在准确率上以近20个点的巨大优势领先于LLaMA3，但在推理速度上却远不及。然而，在使用了本文的dLLM-Cache之后，LLaDA的推理速度获得了超过3.3倍的提升，首次超过了LLaMA3的推理速度。这一结果有力地证明，本文提出的dLLM-Cache能够让dLLMs在保持其显著准确率优势的同时，获得与ARMs相当竞争力的推理速度

图7 使用dLLM-Cache的dLLM vs 使用KV-Cache的ARM

论文链接： https://github.com/maomaocun/dLLM-cache/blob/main/asset/paper.pdf代码已开源： https://github.com/maomaocun/dLLM-Cache

时事1：18禁全彩肉肉无遮挡无码游戏苹果

06月03日,以色列总理办公室否认袭击前向伊朗发出警告,

平等为主题的演讲稿（精选4篇）,纲手被❌吸乳脱内内。

06月03日,中国单体转体最大吨位双索面预应力混凝土斜拉桥完成“转身”,

　　三、增强意识，落实责任，以良好的精神状态抓好当前工作今年是“”规划的关键之年，同时也是党召开之年，也是我们来宾市建市10周年。我们县正处于全方位打基础工业、各领域大开发的重要战略机遇期。乡(镇)党委领导班子既肩负着实现本乡(镇)新发展的艰巨任务，又承担着全面实施“”规划的神圣使命，责任重大、任重道远。这次党代会后，我们乡(镇)经济社会发展的思路已经很清晰，工作的目标、重点已经非常明确，当前要有个好的精神状态就显得尤为重要。全乡(镇)各级党组织要坚持解放思想，实事求是，与时俱进的思想路线，树立起符合适应新形势发展的新观念，求真务实，真抓实干，以只争朝夕、勇往直前的精神状态投入到工作中去。大力倡导创新精神，不断创新工作方式方法，积极研究新情况、解决新问题，争创一流的工作业绩。要不断增强忧患意识、政治意识、大局意识、意识、开放意识、机遇意识和创新意识，紧紧抓住广西建设西部经济强区、民族文化强区、社会和谐稳定模范区、生态文明示范区、民族团结进步模范区，的历史机遇，依托区位优势和资源优势，加快实施“打造区域内河港口和区域物流

,体育生黑袜自慰出精🔞,真人实战镖客视频播放,七十路の高齢熟女千代子泳装写真。

时事2：日韩AV色欲AⅤ色啪啪AV无码

06月03日,习近平抵达爱丽舍宫法国总统马克龙热情迎接,

　　“明天！”小不点瞄向不远处的一群独角兽，不能翱翔于天空，那么就捉一头拥有极速的凶兽代步也不错。

,韩漫无羞遮无删减H漫画欲海交锋,主动把奶头放进男朋友嘴巴里小说,动漫女仆被❌羞羞无尽巨胸。

06月03日,“香港特专科技第一股”晶泰科技首日挂牌,

　　老族长看了他们一眼，道：“等你们将骨文炼入每一寸血肉内，化成霞光，成为神曦，就不用这样担心了，可以引动天地间的神精滋养己身，到时可入水火，长时间不呼吸也没事。”

,裸体胡桃疯狂❌喷水自慰小说,性爆乳❌巨乳,继女调教器材室轮。

时事3：爽⋯好大⋯快⋯深点自慰大学

06月03日,交通运输部：智慧港口建设成效显著,

　　柳树沐浴雷海，缭绕着山岳粗的巨大闪电，万千柳条化成一道道炽盛的神链，刺透了整片苍穹。最后，它折断，通体焦黑，从天而降，此外还有一团光，裹着这块莹白的骨，跟着一起坠落石村。

,中国猛性❌❌❌HD高清免费,doi视频,兔女郎被吃胸乳❌❌❌动漫。

06月03日,“五一”假期福建宁德文旅市场“稳开高走”：民俗游、乡村游、滨海游人气高涨,

　　五、同学间要互相关心、爱护，发现有的同学私自去游泳或到危险的地方去玩耍，要及时劝阻并告诉老师或家长。

,小🐔🐔伸进🈲🔞🔞视频,免费的视频app网站入口,桃花岛㊙️app视频。

时事4：亚洲AV成人片在线观看2022

06月03日,华侨华人聚焦达沃斯：“中国方案”暖意浓、诚意足,

　　1、我们本届毕业班工作的指导是：面向全体学生，保优生，抓中层，促学困生;强化常规管理，正学风、抓课堂、求效率。

,扒开❌狂揉❌羞羞中国,被c了一晚上啊～嗯～轻点漫画,人体色情777777777。

06月03日,2024哈尔滨马拉松开跑,

　　而他们狩猎队伍中的头领也大叫，要求谈判，他高足有两米三四，气势迫人，但是此时却再也不似刚才那般强硬与咄咄逼人了。

,掀开老师的裙子❌狂揉❌视频,女警花裸露双乳喂给男人玩,女S男M圣水✅免费网站调教男生。

【（身边的变化）拥抱“阳光经济” 重庆工业园区屋顶“碳”新路】

【（巴黎奥运）场地自行车女子团体争先赛决赛：中国队第六】

责编：布鲁克·洛佩斯

审核：冉勇

责编：莫万丹