长文本能力对语言模型(LM,Language Model)尤为重要,试想,如果 LM 可以处理无限长度的输入文本,我们可以预先把所有参考资料都喂给 LM,或许 LM 在应对人类的提问时就会变得无所不能。
但是,LM 通常只在较短窗长下进行训练,可能产生过拟合,只学习到指定范围内的位置关系,但是无法理解没学习过的位置关系。为了缓解这个问题,当下最流行的便是引入具有周期性的旋转位置编码(Rotary Position Embedding,RoPE)。由于周期性编码每间隔一定距离就会出现数值重复,所以 LM 可以使用在少数几个周期内学习到的经验泛化到更多的周期当中。
但奇怪的是,使用 RoPE 的 LM 依然难以直接在训练长度之外起效,必须依靠其他算法(如 YARN)来辅助其进行外推。 那么,到底是什么限制了 RoPE 的周期延拓,进而限制了 LM 的长度外推呢?
于是,清华大学讲席教授、上海AI Lab主任/首席科学家周伯文教授的团队对这一问题进行了深入探索,使用傅里叶分析工具解读了使用 RoPE 的 Transformer 模型长文本泛化能力不足的原因之一是 RoPE 带来的周期性延拓受到了频谱破坏的影响。进一步地,该文章提出的傅里叶位置编码(Fourier Position Embedding,FoPE)大幅提升了Transformer的长文本泛化能力。
论文标题:Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length GeneralizationarXiv 链接:https://arxiv.org/pdf/2412.17739代码链接:https://github.com/TsinghuaC3I/Fourier-Position-Embedding
研究亮点
发现 —— 频谱损坏限制周期延拓
作者们通过观察 RoPE 的公式可以发现,它为 Hidden States 的每一维都指定了单一的频率,并假设这一维度的语义信息按照这个波长影响其他位置的语义。所以,RoPE 周期延拓性的起效前提是 “Hidden States 的每一维只存在单一频率的语义”。如果每一维明明存在不同频率的语义,却仍然按照单一频率的波长来估计这部分语义的传递规律,RoPE 所带来的周期延拓将产生混乱,进而无法实现长文本泛化。
遗憾的是,在使用 RoPE 的 LM 中,这个假设只在 LM 的第一层中成立,但在后面的所有层中都不成立。因为后面的所有层中,每一维中都掺杂了除主频之外的其他频率分量,这个现象可以被称作频谱损坏(Spectrum Damage)。频谱损坏主要有三个来源:① 线性函数;②激活函数;③时域截断。
线性函数
激活函数
这个结论可以通过泰勒展开进行简单证明,也可以任意地推广到存在更多频率的情况。可以看到,经过线性层之后,每一维本就掺杂了多种频率。在经过激活函数之后,这种掺杂会变得更加严重。
时域截断
给定一个被截断为长度N的单频率函数
通过傅里叶变换可以得到(详见文末)这个函数的频谱是:
算法 —— 频域鲁棒性是长文本泛化关键
在以往的研究中,大家普遍认为只有 Attention 才会影响长度外推。但从上面的分析可以看出,整个模型中的线性层、激活函数和时域截断也都会对长度外推产生影响,并且是不利影响(也就是上文提到的频谱损坏)。为了改善频谱损坏对长文本泛化的不利影响,这篇论文提出了傅里叶位置编码(FoPE,Fourier Position Embedding)来提升模型的频域鲁棒性和周期延拓性,进而提升长文本泛化。
FoPE 的核心思想是 “打不过就加入”。考虑到线性层和激活函数可以带来更强的表征能力,时域截断又是受到硬件限制无法改变,FoPE 索性就仍然保留了各层中的频谱损坏,转而提出了对于频谱损坏更加鲁棒的位置编码。鲁棒性的提升主要源于两方面:① 既然每一维中不可避免的混杂其他频率的分量,那就干脆在一开始就把每一维都建模成一个傅里叶级数(Fourier Series)。即使这样的建模不会避免频谱破坏,FoPE 却可以在每一维中解码出更多频率的信息(利用三角函数的正交性);② 既然极低频的分量周期过长,会导致这些频率分量的周期特性无法被学习到,那就将他们裁剪成频率为 0 的直流分量。考虑到直流分量的良好性质(既可以看作周期无限短,又可以看作周期无限长),这个新加入的频率既保证了周期性,又可以让每个词汇的信息向无限远的词汇传递;
综上,FoPE 的公式可以写作:
实验
进一步地,文章在困惑度、大海捞针准确率以及很多下游任务 Benchmark 对不同方法进行了对比,实验发现 FoPE 在这些任务上都有稳定的表现,在绝大多数远超过使用 RoPE 的模型。
潜在影响
论文中使用傅里叶工具得到的分析结论和算法可能存在更广泛的潜在价值,有潜力应用在更多的领域和任务:① AI 领域内:长视频生成、kv-cache 压缩、多模型协同等;② AI 领域外:语义通信、光计算和脑机接口。
作者简介:华尔默,清华大学博士生,研究方向是基础模型的架构设计与训练算法设计,在 ICML、ICLR、NeurIPS、ACL、EMNLP、COLM、AAAI 等顶级会议上发表过论文。
《小乔天鹅之梦cos》,《w3u7903ejky2ywls》大尺度小黄说说
“岳伦一级特黄大片”
涩涩🔞动漫乱码精品
……
05月10日
“原神仆人裸身被❌羞羞照片”老牌地产公司被曝3小时裁掉所有员工
↓↓↓
05月10日,云南三所乡村小学合唱团唱响“田埂上的童年”,性XXXXXZZZZZBBBBB,小舞🌸扒腿让我c的游戏,欧美人与禽ZOZZO禽性配吗?,宝宝~才一根手指就不行视频
05月10日,外企观两会 | “中国绿”为外企添活力,小受受扒开屁股挨🌿网站动漫,免费看同人动漫网站,宁荣荣3D❌禁漫在线看视频,主人乳罚我把内裤夹在强迫
05月10日,韩媒:韩国2024年高温天气不断 已有13人因中暑身亡,被男人添囗交做爰视频,精品人妻一区二区三区奶水,小南被❌羞羞动漫进入,国产成人🔞🈲好用力啊
05月10日|逾750名海内外龙舟运动员齐聚广州白云上演“速度与激情”|琳妮特裸体❌开腿羞羞视频|PORNOⅩXXXXHD600|男🍌女🍑情×片入口|沙奈朵强乳喷本子网站
05月10日|重达2492克拉!博茨瓦纳发现世界第二大钻石|日本🇯🇵20-21HD|美女又爽又黄免费蘑菇|便を食べる大便呕吐观看|女学生被c扒衣在线观看
05月10日|医保三重制度为“健康中国”护航|关晓彤被弄到高潮下不来床|性生交大片免费观看999影库|成人🔞高潮片免费软件|小受被惩罚扒开 9 9视频网站……
05月10日,安徽2023年外贸增速长三角第一 出口汽车72.92万辆,3D小舞裸体❌❌抖乳斗罗大陆,成人做爰A片免费看网站找不到了,揉我胸⋯啊⋯嗯出奶了黄,泰勒斯威夫特扒下裤子露臀
05月10日,浙江衢丽铁路狮子山隧道顺利贯通,成人精品无码亚洲A片小雪,梦红尘被狂c污的原文,大胸动漫美女❌❌祼体,洛琪希本子18免费无码
05月10日|(新春走基层)青海“高跷之乡”社火排练 延续百年传统文化|美女脱精光被刑具挠脚心|成人爽快片婬乱视频绝吊丝|女性㊙️免费自慰|镜音铃被❌到爽网站
05月10日,搭建互联互通平台 中国援老挝农村电子商务工程,三年片在线观看免费播放冰河时代,被老师C嗯~~哼~~唧~,JAVHD无码破解壊版,国产强伦姧人妻毛片
05月10日,理解山西丨长城一号公路串起的不止古建文物,还有一种坚持“双十一”宁夏实现网络零售额23.1亿元,无尽❌裸体❌白丝❌黑人,片多多app♥无限看老版黄,美女又爽❌又黄❌脱脱内内动漫,扒开🍑让老师🍌进去动漫
05月10日,国家开发银行总务部高级经理刘猛接受审查调查,人色姑娘特级毛片,苍井空做爰全过程,赵今麦乳头无遮挡,鸣人被C哭着爬又被拉回挺进
05月10日|广西桂林发布暴雨红色预警 漓江游览排筏全线封航|浏览器app❤网站成人版|被绑在床强摁做开腿呻吟H动漫|小受被捆绑用震蛋折磨sm|蜜桃av秘无码一区二区
05月10日|跟着“悟空”游山西!山西文旅官员谈国产游戏带火取景地|儿童游戏免费版|欧美深喉囗交吞精XXOO|原神涩涩同人网站|国产玉足Sm足控脚交视频
05月10日|黄埔百年丨百年回望:孙中山先生与黄埔军校|鲁大师在线高清在线观看|亚洲人做受高潮软件手机号|萌琪琪16分钟不打码视频|女女c🔞黄㊙️❌P站
米哈游等遭工信部点名,王祖贤57岁生日晒出素颜自拍照|国家二级保护动物凤头鹰、蛇雕相约“五一”度假|18视频免费网址在线观看|相泽南被躁120分钟中出|光屁屁➕无遮挡➕美女|8x8Ⅹ成人永久免费视频
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺