猫眼电影
猫眼电影记者 孟莎 报道w3u7903ejky2ywls
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。
对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。
并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。
这就是阿里通义团队提出的PARSCALE。
目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。
阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。
他们将CFG的并行思想从 “生成阶段的推理优化” 扩展为 “训练和推理全流程的「计算缩放」”。
让我们来扒一扒技术细节。
将CFG的并行思想扩展到计算缩放PARSCALE对于CFG双路径的灵感迁移
CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生成质量(如文本相关性、图像细节精准度)。
其核心在于利用并行计算(两次前向传播)增强模型决策的多样性和准确性,而无需增加模型参数。
研究人员观察到CFG的有效性可能源于计算量的增加(两次前向传播),而非单纯的条件引导。
由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。
CFG用2条并行路径提升性能,PARSCALE则将路径数量扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行计算成为一种可扩展的 “计算缩放” 范式。下图展示了PARSCALE方法。
PARSCALE改进的并行计算框架
1、输入层:可学习的多路径输入变换
核心改进是将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入。
前缀嵌入生成:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。
2、计算层:并行前向传播
并行执行:将P个差异化输入同时输入模型,利用GPU的并行计算能力,一次性完成P路前向传播,生成P个输出流。效率优势:通过批量矩阵运算实现P路并行,计算效率随P线性增长,共享模型主体参数,仅增加前缀嵌入等少量可训练参数。
3、输出层:动态加权聚合
通过多层感知机(MLP)动态计算各路径输出的聚合权重,替代 CFG 的固定权重机制:若某路径输出与当前输入语义匹配度高,MLP 会为其分配更高权重。
PARSCALE更高效
PARSCALE vs. 参数扩展
当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增加量为1/6。
在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%(相对基准),显著高于参数扩展的增益。
两阶段训练策略
阶段1:用传统方法预训练模型至收敛(1Ttokens)。
阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。
P=8模型在GSM8K上提升34%,且与从头训练效果相当,证明少量数据即可激活并行路径的有效性。且该策略使训练成本降低约 98%
适配现有模型
研究团队在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重。
结果显示,在代码生成任务(HumanEval+)中PEFT 方法使Pass@1提升15%,且冻结主体参数时仍有效,证明动态调整 P 的可行性。
PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的计算缩放范式。
感兴趣的朋友可到官方查看更多细节~
论文链接:https://arxiv.org/abs/2505.10475代码地址:https://github.com/QwenLM/ParScale参考链接:https://x.com/iScienceLuvr/status/1923262107845525660
— 完 —
时事1:桃花岛app视频免费看
06月05日,首募专业志愿者 超千名第七届进博会“小叶子”在沪集训,
(十一)开展案件整改检查,推动以查促防。各银行业金融机构应对其分支机构发生案件的整改情况进行审计检查,并将检查情况及时监管机构。监管机构应对辖内银行业金融机构案件整改审计情况进行监督检查,评估检查整改效果,对整改不力的,要及时约谈,采取监管措施,推动以查促防。
,电锯人涩涩同人❌18禁黄漫。06月05日,新疆铁路双口岸累计通行中欧(中亚)班列突破7万列,
保护环境我们在行动国旗下讲话 篇1
,芙宁娜暴爽自慰喷水动漫,16美女隐私㊙️照片,金艺贞ck仙桃自卫慰52集。时事2:三个妇女玩人妖
06月05日,浙江杭州:良渚古城遗址公园晨雾飘渺如水墨画卷,
可惜,这头凶禽太强大了,双翅一展,撕破苍穹,瞬息远去,避过了铁棍,它虽然身躯庞大,但却非常灵活,拥有神速。
,美女露出🐻让男生揉日漫,unity触摸18+手游下载,肥岳虎狼原文和翻译。06月05日,“中国温泉之乡”广东龙门万人同泡“三伏浴”, 但对于很多花钱去支教的人群来说,能在7天内获得公益时长或是乡村支教调研报告等,便可以为申请海外留学、择校、评优提供相应证明。,性欧美,挠tk女仆脚心,比基尼男裤 洗澡。
时事3:大🐔巴摩擦摩擦进去
06月05日,重庆系统展出895件(套)三峡出土文物,
关爱生命,就要求大家注意安全。在日常生活中,交通安全总是围绕在我们身边。只要你一出行,便同交通打上了交道。
,开户猎手(破解版)_1.0.0.apk,国产精品㊙️桃子冰,护士让人摸㊙️网站无需输入密码。06月05日,海外华文媒体山西行 参访平遥古城感知晋商文化,
“这是原始宝骨吗,看起来很罕见与珍贵。”小不点惊讶,蹲下身来,用手指触摸,想要攫取出来。
,女性裸体被❌羞羞被扒胸衣视频,黄片一级aaa区午夜wv,原神❌18禁漫画网站免费。时事4:AV➕无码➕高潮➕国产
06月05日,瑙鲁政府宣布同台湾“断交”、愿同中国复交 中方表示赞赏和欢迎,
“你们说什么,这里一样可以生死一战!”正在激战的三个孩子大怒,将战场范围扩大,将那两个孩子也卷了进去。
,米塔被C到高潮,yaoi❤♂Gayfurry动漫,茶啊二中刘若琳裸体网站。06月05日,人才创造力从何而来?第三场“代表通道”精彩作答,
整片虚神界哗然,激起轩然大波,就是身在高层次的洞天福地的那些人,也都想去初始地看一看。
第九十章 抢夺,女领导脱了内裤让我添,国产chinese男男Gay网站黄,美女免费㊙️免费看网站。责编:晏国政
审核:印朋
责编:陆某