猫眼电影
猫眼电影记者 朱丽安娜·玛格丽丝 报道w3u7903ejky2ywls
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。
对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。
并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。
这就是阿里通义团队提出的PARSCALE。
目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。
阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。
他们将CFG的并行思想从 “生成阶段的推理优化” 扩展为 “训练和推理全流程的「计算缩放」”。
让我们来扒一扒技术细节。
将CFG的并行思想扩展到计算缩放PARSCALE对于CFG双路径的灵感迁移
CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生成质量(如文本相关性、图像细节精准度)。
其核心在于利用并行计算(两次前向传播)增强模型决策的多样性和准确性,而无需增加模型参数。
研究人员观察到CFG的有效性可能源于计算量的增加(两次前向传播),而非单纯的条件引导。
由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。
CFG用2条并行路径提升性能,PARSCALE则将路径数量扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行计算成为一种可扩展的 “计算缩放” 范式。下图展示了PARSCALE方法。
PARSCALE改进的并行计算框架
1、输入层:可学习的多路径输入变换
核心改进是将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入。
前缀嵌入生成:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。
2、计算层:并行前向传播
并行执行:将P个差异化输入同时输入模型,利用GPU的并行计算能力,一次性完成P路前向传播,生成P个输出流。效率优势:通过批量矩阵运算实现P路并行,计算效率随P线性增长,共享模型主体参数,仅增加前缀嵌入等少量可训练参数。
3、输出层:动态加权聚合
通过多层感知机(MLP)动态计算各路径输出的聚合权重,替代 CFG 的固定权重机制:若某路径输出与当前输入语义匹配度高,MLP 会为其分配更高权重。
PARSCALE更高效
PARSCALE vs. 参数扩展
当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增加量为1/6。
在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%(相对基准),显著高于参数扩展的增益。
两阶段训练策略
阶段1:用传统方法预训练模型至收敛(1Ttokens)。
阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。
P=8模型在GSM8K上提升34%,且与从头训练效果相当,证明少量数据即可激活并行路径的有效性。且该策略使训练成本降低约 98%
适配现有模型
研究团队在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重。
结果显示,在代码生成任务(HumanEval+)中PEFT 方法使Pass@1提升15%,且冻结主体参数时仍有效,证明动态调整 P 的可行性。
PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的计算缩放范式。
感兴趣的朋友可到官方查看更多细节~
论文链接:https://arxiv.org/abs/2505.10475代码地址:https://github.com/QwenLM/ParScale参考链接:https://x.com/iScienceLuvr/status/1923262107845525660
— 完 —
时事1:黑土本子奖励专用网站
05月31日,和谐共生丨地球上的这些“宝”,总书记叮嘱要呵护好,
成绩辉煌的~~~~年已经结束了,在上一年,我们辛苦的付出得到了上级领导和社会上的赞扬、信任与肯定,使我们的知名度、美誉度有了很大的提升,实现了双赢。~~~~年我们又迎来了新的任务和挑战,首先,我代表中心领导班子,向各位对我们的信任与支持表示感谢。在新的一年,我们要继续遵循区市政市容委的部署,弘扬“爱国、创新、包容、厚德”的北京精神,在“团结紧张、严肃活动”的工作氛围下,珍惜我们来之不易的成绩,鼓足干劲、凝心聚力,继续向新的挑战目标奋斗,下面我说一下今年的工作重点和要求:
,佐良娜被鸣人❌❌黄漫画。05月31日,报告:光谷新注册活跃中小企业新兴赛道占比超六成,
银月颤抖,他全力奔行,持宝月阻挡铁矛,奔行数十米远,而后全力祭出,雪亮的银光闪过,前方传来数声惨叫,五六人的手臂被削断,血液溅起很高。
,荫道添到高潮A片,成人扒开伸出视频,成人做爰黄✌片免费观看鲸鱼🐳。时事2:naruto❌sakura18
05月31日,重庆万州灯火璀璨引客来,
石村众人看的目瞪口呆,他们知道,老柳树很神秘,与一般的祭灵大不相同,但是却不曾想这么震撼。
,国产高潮无码揉胸,女女蕾丝互慰吃奶高潮,苍井空做爰高潮A片完整。05月31日,广东东莞2023年地区生产总值超1.1万亿元,
6、努力提高档案服务水平
,成人🔞日本情趣,糖心香菜大全在线观看,JK制服白丝自慰喷水网站。时事3:3D❌❌❌video白丝
05月31日,百年诞辰忆金庸:南开大学原常务副校长陈洪谈金庸两三事,
在加强城市基础设施建设的同时,以“双创”活动为载体,大力实施城区亮化、绿化、净化工程,县城环境不断美化。亮化工程推进有力,去年城区共更新增设路灯803盏,楼体亮化单位达150余个;绿化工程顺利实施,新建改建了白河公园、移动绿园以及解放路、书院路绿园,更新了朝阳路绿带;城管工作逐步规范,通过完善运作机制,推行集中整治、专项整治和长效管理相结合,城区秩序有了明显改观,全年共拆除不规范广告牌20xx余块,取缔不合格要求的临街门店80余处。卓有成效地组织开展了城区军民渠、护城河清障清淤工作,扭转了城区脏、乱、差的状况。
,女用吸乳情趣,动漫美女的隐私㊙️撒尿,神考唐三被摁住灌浓精。05月31日,巴黎圣母院重新开放仪式将于12月7日举行,
安全工作是我校工作的重中之重,通过讲座,同学们认识到安全事故的教训是深刻的,“千里之堤,毁于蚁穴”,任何事情我们都要从大局出发,从小处着想,生命无法重来,安全不能等待。
,精品午夜女友AV在线观看,大乳美女裸体漫画,小🐤🐤戳进🍑无遮挡电影。时事4:扒開腿灌牛奶🥛調教赵丽颖漫画
05月31日,法国童声合唱团海南听黎歌赏黎锦跳黎舞,
四堆人山中,几个地位尊崇的大人物,平日间呼风唤雨,撒豆成兵,睥睨一方。而现在却同样被放在“一堆”里,遭了这样的罪,那种憋屈劲都快把他们噎死了。
,小妖精的yin荡日子h高H视频,抖音星野,奥特曼娘化色视频在线观看。05月31日,邹敬园夺得巴黎奥运会体操男子双杠金牌,
(一)树立勤政为民的作风
,竹内里沙和狗的梗,羞羞漫画❌破解版,小智❌沙奈朵18禁污污。责编:李军辉
审核:蒋晓
责编:薛稢