6163银河.net163.am(中国·官方网站)-Webgame Platform
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

2025-06-01 17:58:16
来源:

猫眼电影

作者:

许怡婷

手机查看

  猫眼电影记者 方塔娜 报道w3u7903ejky2ywls

闻乐 发自 凹非寺量子位 | 公众号 QbitAI

既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。

对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。

并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。

这就是阿里通义团队提出的PARSCALE。

目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。

阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。

他们将CFG的并行思想从 “生成阶段的推理优化” 扩展为 “训练和推理全流程的「计算缩放」”。

让我们来扒一扒技术细节。

将CFG的并行思想扩展到计算缩放PARSCALE对于CFG双路径的灵感迁移

CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生成质量(如文本相关性、图像细节精准度)。

其核心在于利用并行计算(两次前向传播)增强模型决策的多样性和准确性,而无需增加模型参数。

研究人员观察到CFG的有效性可能源于计算量的增加(两次前向传播),而非单纯的条件引导。

由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。

CFG用2条并行路径提升性能,PARSCALE则将路径数量扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行计算成为一种可扩展的 “计算缩放” 范式。下图展示了PARSCALE方法。

PARSCALE改进的并行计算框架

1、输入层:可学习的多路径输入变换

核心改进是将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入。

前缀嵌入生成:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。

2、计算层:并行前向传播

并行执行:将P个差异化输入同时输入模型,利用GPU的并行计算能力,一次性完成P路前向传播,生成P个输出流。效率优势:通过批量矩阵运算实现P路并行,计算效率随P线性增长,共享模型主体参数,仅增加前缀嵌入等少量可训练参数。

3、输出层:动态加权聚合

通过多层感知机(MLP)动态计算各路径输出的聚合权重,替代 CFG 的固定权重机制:若某路径输出与当前输入语义匹配度高,MLP 会为其分配更高权重。

PARSCALE更高效

PARSCALE vs. 参数扩展

当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增加量为1/6。

在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%(相对基准),显著高于参数扩展的增益。

两阶段训练策略

阶段1:用传统方法预训练模型至收敛(1Ttokens)。

阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。

P=8模型在GSM8K上提升34%,且与从头训练效果相当,证明少量数据即可激活并行路径的有效性。且该策略使训练成本降低约 98%

适配现有模型

研究团队在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重。

结果显示,在代码生成任务(HumanEval+)中PEFT 方法使Pass@1提升15%,且冻结主体参数时仍有效,证明动态调整 P 的可行性。

PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的计算缩放范式。

感兴趣的朋友可到官方查看更多细节~

论文链接:https://arxiv.org/abs/2505.10475代码地址:https://github.com/QwenLM/ParScale参考链接:https://x.com/iScienceLuvr/status/1923262107845525660

— 完 —

 时事1:浣肠と排泄の羞耻~视频

  06月01日,截至今日12时 新疆已记录到56次3级及以上余震,

  石昊对它又揉又捏,在朱厌的抗议声中,他们来到湖边,准备修行。

,双女王脚交调教丝袜。

  06月01日,洋主播看两会:与西湖龙井非遗传承人樊生华一起走进茶文化,探讨茶农、茶企们关心的议题!,

  1、上下学途中我们须在人行道内行走,没有人行道的要靠路边行走; 过马路时要走斑马线,严格遵守红灯停,绿灯行的规则。宁慢一分,不抢一秒。

,里面好湿⋯好紧⋯太爽了凛冴,免费静香被强❌禁欲小说,原涩涩羞羞18❌网站。

 时事2:8❌8❌海外华人永久免

  06月01日,(新春走基层)千年古城沿河老街“年味浓” 游客感受“烟雨江南”,

工商银行信用卡逾期怎么协商本金?需要什么材料?
,二次元大球球上下晃动,裸体裸乳被91,宝贝把腿开大让我添添你男男。

  06月01日,“阳明学堂”在贵州中华文化学院正式挂牌,

  小石昊擦净泪水,道:“爷爷你继续讲。”

,女性向羞辱调教m向音声,成人黄色性爱小说,91无码粉嫩小泬无套在线哈尔滨。

 时事3:3d动漫大全

  06月01日,专家:海南创建国家植物园有利于热带资源保存,

  “不好,做好战斗的准备!”

,美国女人精69XXXXXX,3D强㢨斗破苍穹美杜莎人物游戏,美女扒开㊙️让男人桶爽吻戏。

  06月01日,超越日本!中国成最大汽车出口国,

  (3)假期如父母外出不在家时,一定要提高警惕,防止坏人诈骗独自在家的同学,防止伤害未成年人的事件发生。

,🌸✿极品白丝✿🌸白皙,张天爱被躁120分钟视频,碧蓝档案花子裸体❌禁图。

 时事4:黄景瑜裸体实干12次

  06月01日,严控灾区饮水安全 应急药品已送达辽宁建昌县灾区,

  ⑤公司基础管理薄弱,管理工作粗放等。

,初音未来被调教出奶水,美女裸体全身秘遮挡奶,欧美人妖深喉。

  06月01日,福州:暑期中国船政文化城人气旺,

  今天一早,我和爸爸高高兴兴地去参观国防知识科普教育展。

,青海美露生活是传销吗知乎,女警花裸露双乳喂给男人玩,美女露出🐻让男生揉动亲吻。

责编:陈红

审核:巴比特

责编:魏琴琴

相关推荐 换一换