猫眼电影
猫眼电影记者 卢警官 报道w3u7903ejky2ywls
闻乐 发自 凹非寺量子位 | 公众号 QbitAI
既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。
对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。
并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。
这就是阿里通义团队提出的PARSCALE。
目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。
阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。
他们将CFG的并行思想从 “生成阶段的推理优化” 扩展为 “训练和推理全流程的「计算缩放」”。
让我们来扒一扒技术细节。
将CFG的并行思想扩展到计算缩放PARSCALE对于CFG双路径的灵感迁移
CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生成质量(如文本相关性、图像细节精准度)。
其核心在于利用并行计算(两次前向传播)增强模型决策的多样性和准确性,而无需增加模型参数。
研究人员观察到CFG的有效性可能源于计算量的增加(两次前向传播),而非单纯的条件引导。
由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。
CFG用2条并行路径提升性能,PARSCALE则将路径数量扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行计算成为一种可扩展的 “计算缩放” 范式。下图展示了PARSCALE方法。
PARSCALE改进的并行计算框架
1、输入层:可学习的多路径输入变换
核心改进是将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入。
前缀嵌入生成:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。
2、计算层:并行前向传播
并行执行:将P个差异化输入同时输入模型,利用GPU的并行计算能力,一次性完成P路前向传播,生成P个输出流。效率优势:通过批量矩阵运算实现P路并行,计算效率随P线性增长,共享模型主体参数,仅增加前缀嵌入等少量可训练参数。
3、输出层:动态加权聚合
通过多层感知机(MLP)动态计算各路径输出的聚合权重,替代 CFG 的固定权重机制:若某路径输出与当前输入语义匹配度高,MLP 会为其分配更高权重。
PARSCALE更高效
PARSCALE vs. 参数扩展
当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增加量为1/6。
在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%(相对基准),显著高于参数扩展的增益。
两阶段训练策略
阶段1:用传统方法预训练模型至收敛(1Ttokens)。
阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。
P=8模型在GSM8K上提升34%,且与从头训练效果相当,证明少量数据即可激活并行路径的有效性。且该策略使训练成本降低约 98%
适配现有模型
研究团队在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重。
结果显示,在代码生成任务(HumanEval+)中PEFT 方法使Pass@1提升15%,且冻结主体参数时仍有效,证明动态调整 P 的可行性。
PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的计算缩放范式。
感兴趣的朋友可到官方查看更多细节~
论文链接:https://arxiv.org/abs/2505.10475代码地址:https://github.com/QwenLM/ParScale参考链接:https://x.com/iScienceLuvr/status/1923262107845525660
— 完 —
时事1:在钱鲁一鲁
06月03日,去年A股年度现金分红合计2.24万亿元,
小不点双臂一晃有八千斤神力,更何况是这样一脚,雷明远像是被莽牛王撞上了,口中喷血,双臂发光,簌簌抖动,几乎折断。
,甜蜜日记。06月03日,国台办:民进党当局应尽快取消两岸航空运输方面不合理限制 满足两岸民众需求,
小不点无惧,依旧是以闪电开道,十指间电芒暴涨,金色符文漫天,压落而下。
,韩国超美TS『Lin』无套,美女被❌奶头吸乳羞羞网站,男男受爱Gay同性XXXAPP。时事2:被主人打屁股调教 撅高
06月03日,频频遭遇拒保问题 新能源汽车续保怎么成了难题?,
一是学风不浓。现在我们全国上下正为着重打造学习型社会而努力,各级党政主要领导一再强调加强学习的重要性。要求我们基层干部必须加强党的方针、政策的学习,加强对市场经济的学习,加强对科学知识的学习,而在我区上下,学习风气不是很浓,尤其是我们的一些同志整天围着杯子转、围着牌桌转,围着鱼杆转,有的甚至围着裙子转,不思学习,不想学习。整天无所事事,终日碌碌无为,相反,对社会上的一些无聊的东西,比如千变万化的麻将扑克新赌法,飞来飞去的黄色短讯,我们一些干部倒是学得很快,一看就懂,一学就会。我说这些人心事都没有用在正经的学习上面,大量的时间被浪费了。他们对党的方针政策理解不透,对新知识、新经验一知半解,对新问题、新情况麻木不仁,造成的直接后果就是素质很差、眼界狭窄、境界低下、思想保守,不能很好地完成党和人民交给的任务。当今时代知识奔流,信息密集,科学技术迅速转化为生产力,知识经济越来越直接地融化为综合实力。我们如果不学新知识,不学人家的先进经验,没有与时俱进、开拓创新的精神,面对新形势、新情况、新问题,便会束手无策,不知所措,干不成大事业。
,关晓彤裸体被❌羞羞网站ai换脸,SDMF-025作品主演是谁,绝母动漫第一季更新内容。06月03日,【台青在大陆】何冠奕:用“古老”形容云锦 只对一半,
圣药是什么东西?生死人肉白骨,遍寻百万里大荒难寻一株!要知道,即便有,也都在太古神山上,那些地方可能有真犼盘踞,有纯血金翅大鹏筑巢,没有人敢临近,否则必死无疑。
第一百零五章 考验结束【第三更】,穿越星穹铁道婬乱版,车内搓双乳震颤呻吟高潮动态图,狍与女人做爰特级全黄。时事3:桃味cc改名后怎么没有了
06月03日,云南昭通市镇雄县山体滑坡已致4人遇难,
第一,强化城市意识,把握发展规律。要进一步解放思想,更新观念,学会用城市的眼光来看待问题,用城市的思维来谋划工业,用城市的标准来衡量工作,牢固树立抓城建就是抓经济,抓城镇化就是抓发展、抓现代化建设的理念,不断增强法制意识、文明意识、秩序意识、服务意识和平等意识,增强工作的预见性、主动性和自觉性。要加强对城镇化理论的学习与研究,把握城镇化发展的规律,科学制定本地、本部门城镇化的发展思路和工作重点,协调解决城镇化进程中的重大问题,增强驾驭城镇化工作的能力和水平。
,护士脱了精光让人摸㊙️动漫,满18岁带好纸巾从此转折人生,被男朋友㖭下边的感觉。06月03日,“歪果仁”江源玉树游“人文称多” 互洒糌粑送祝福,
3 、 认真组织 实验操作训练,以理化生老师为中心,以班主任为辅助,分层次、有目的的对学生进行训练,确保每个学生都能发挥自己应有的水平。
,我和jk美女❌了一夜视频,程潇也太敢穿了,男男Gay做受❌❌视频中国。时事4:体育生白袜爆🌿小受睾酮
06月03日,中共中央宣传部发出关于认真组织学习《习近平文化思想学习纲要》的通知,
⑥开展校内名师评选验收活动。积极发挥名师的传帮带作用,最大限度发挥校内名师的示范和带头作用。
,男男18🈲欧美呻吟GV小说,Chinese GAY XXXX Videos,ww视频网站看禁🈲️片红杏网站。06月03日,专家:深海考古需依托深海科技推进,
“神力惊人!”云天宫的老人惊叹。
,XXXXXX泡妞🍆,雷电将军自慰喷水本子,美女岁生裸体㊙️。责编:赵俊新
审核:阮良之
责编:褚学稼