猫眼电影
猫眼电影记者 廖仕祺 报道w3u7903ejky2ywls
本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文,师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。
信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:
文档质量不可控:真实搜索引擎返回内容不可控,训练过程易受噪声干扰。搜索 API 成本高昂:Rollout 阶段频繁调用搜索 API,训练成本极高。
为了解决这些问题,我们提出了 ZeroSearch 框架 —— 无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在多项任务上性能超过依赖真实搜索引擎的方法。
论文标题:ZeroSearch: Incentivize the Search Capability of LLMs without Searching论文地址:https://arxiv.org/pdf/2505.04588代码地址:https://github.com/Alibaba-NLP/ZeroSearch项目主页:https://alibaba-nlp.github.io/ZeroSearchHuggingface 主页:https://huggingface.co/collections/sunhaonlp/zerosearch-v2-6827f4ee6b6265069d443d4e
方法
无需搜索的强化学习框架
传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互,产生大量 API 开销,而大语言模型在预训练阶段积累了丰富的世界知识,具备根据 query 返回相关信息的能力,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM),无需真实搜索,即可为策略模型生成检索文档,大幅降低了训练成本:
为了避免策略模型记住由 Simulation LLM 生成的文档,我们对文档进行了损失屏蔽(Loss Masking),仅对策略模型自己生成的 token 进行损失计算。
结构化训练模板
ZeroSearch 无需初始监督微调(SFT),直接对预训练语言模型进行强化学习训练,通过采用结构化的训练模板,引导模型在每一轮交互中划分思维步骤:
对已有信息分析,明确下一步行动提炼搜索 query总结推理过程,形成最终答案
这种结构化模板提升了模型推理路径的清晰度和可解释性,格式化的输出便于提取最终答案进行奖励计算。
搜索模拟微调
直接通过 Prompt 指导 LLM 生成的模拟检索内容,往往与真实搜索引擎返回的检索内容风格差异较大,且质量不稳定。为了解决这些问题,我们采用了模拟微调策略,具体包含以下三步:
轨迹采集:从策略模型与真实搜索引擎的交互中采集 Query-Document 对质量评估:利用 Qwen-Max 作为评审,对文档进行有用性判别监督微调:构建高质量训练集,进行轻量级微调 (2 万条数据,7B 模型训练时间仅需 30 分钟)
此外我们还在 Prompt 内引入原始问题的正确答案,从而扩充 Simulation LLM 的知识边界。
基于课程学习的文档生成策略
经过微调的 Simulation LLM 可通过调整在 Prompt 中添加 Useful/Noisy 指令,灵活控制生成文档的质量。基于这一能力,我们进一步引入了课程学习策略,通过逐步降低文档质量,循序渐进地提升训练难度,从而更有效地激发模型的推理能力。
为实现训练难度的平滑过渡,我们设计了一个指数函数来控制 Noisy 文档的生成概率:
训练初期:训练难度上升缓慢,模型能够稳步学习基本的输出格式以及任务逻辑。训练后期,训练难度快速上升,从而促使模型不断强化其推理能力与鲁棒性。
该由易到难的训练过程能够持续激发策略模型的推理能力,有效提升强化学习训练的稳定性与最终表现。
奖励函数设计
在实验中,我们发现使用 Exact Match 作为奖励会诱导模型生成冗长内容以 “碰中” 答案,出现 Reward Hacking 问题,我们改用 F1 Score 作为奖励指标,更加关注输出的准确性与简洁性,有效抑制了冗余答案的产生。此外,我们发现模型在训练中即便不显式监督输出格式,也能生成结构规范的回答,因此没有引入格式奖励。
实验结果
主要性能表现
ZeroSearch 超越所有基线方法,该性能优势在域内以及域外数据集上均得以体现,展示了我们方法的鲁棒性。ZeroSearch 的表现优于依赖真实搜索引擎的方法 Search-R1,凸显其在大规模强化学习中替代真实搜索引擎的潜力。ZeroSearch 展现了强大的泛化能力,随着模型参数量增加,其性能进一步提升,体现了良好的扩展性。
与真实搜索引擎对比
ZeroSearch 与真实搜索的奖励趋势相似,随着训练的推进,ZeroSearch 和 Search-R1 的奖励分数都稳步上升。ZeroSearch 的奖励提升更加显著,虽然在训练初期 ZeroSearch 的奖励值低于 Search-R1,但它最终实现了超越,并且波动更小。ZeroSearch 在基础模型和指令微调模型中都展现了良好的泛化能力,在这两类模型下,ZeroSearch 的奖励表现都持续提升。
模拟搜索设定对比
相对于Base Model,不同类型的 Simulation LLM 均可有效激发策略模型的搜索能力。基于 Prompt 的方法效果较差,主要由于其生成的文档风格与真实搜索引擎差异较大,且质量不稳定,难以支撑稳定训练。经过微调的 Simulation LLM,即便仅有 3B 参数量,也能显著提升策略模型性能;随着模型规模扩大,性能进一步提升:SFT-7B 可达到与 Google 相当的效果,SFT-14B 甚至实现超越 Google 的性能。
交互轮数研究
训练初期:交互轮数迅速下降,奖励缓慢上升
此阶段模型尚未掌握搜索调用机制,经常产生冗余交互,检索效果不佳。
训练中期:交互轮数迅速回升,奖励同步显著提升
模型逐渐学会如何高效调用搜索引擎,能够获取准确信息,回答质量显著提高。
训练后期:交互轮数和奖励趋于稳定
模型已适应数据集的跳数分布,交互策略逐步固化,在课程学习设定下,模型需提升推理能力以应对更低质量文档,从而维持较高奖励水平。
课程学习策略研究
实验结果表明,Curriculum(由易到难)训练策略显著优于 Random(随机难度)训练策略,验证了该训练范式在激发模型推理能力方面的有效性。与 Random 类似,真实搜索引擎在训练过程中难以控制文档难度,导致模型缺乏系统性的能力提升路径,从而限制了推理能力的持续进化。
总结
本文提出了 ZeroSearch,一种无需真实搜索引擎即可激活大语言模型搜索能力的强化学习框架,我们使用轻量级的监督微调将 LLM 转变为一个检索模块,在 RL 训练阶段,我们基于课程学习逐步降低检索模型生成文档的质量,通过不断提升检索难度,逐步激发策略模型推理能力。
大量实验表明,ZeroSearch 使用 3B 参数规模的模型作为检索模块时即可激发语言模型检索能力,7B 模型的检索性能已接近真实搜索引擎,而 14B 模型甚至实现了超越。此外,ZeroSearch 对基础模型和指令微调模型均具有良好的泛化能力,并可兼容多种 RL 算法,具备极强的适应性与可扩展性。
时事1:裸体洛天依被❌到爽
06月02日,北京亦庄“新药智造”产业高地行动已见成效,
好,家人们,我们掌声之余,好事连连,我们再次恭喜在东祥领导下的拓展部完成了3月份目标,恭喜,恭喜。我们把胜利的掌声送给所有拓展部的家人们,今天他们之所以能完成团队所定的目标,最根本就是他的领导对目标的重视度,我们都知道,我们东祥哥是一位行动力超强的人,对工作不折不饶,非常敬业,勤勤恳恳,有追求,有野心的人,在他身上我们可以学到很多,虽然他们目前的团队,大部分经过洗牌,基本上都是新人,但是,我们对他的手下充满信心!因为我们知道,有什么样的领导,一定会带出什么样的团队!我们深信拓展部在东祥领导的带领下,你们这支团队一定是一支真正的狼之队,。我记得东祥跟我说一句话,他说,我的团队在没事做的时候,从来都没有看到他们在闲聊吃喝玩乐的事,都是在互相探讨工作中的事情,家人们,我们都知道,焦点在哪里,结果就在哪里,我们的焦点在闲聊上,结果就是虚度人生,我们的焦点在工作上,结果一定在业绩上,这就是一支让我们看到希望的拓展团队,相信拓展部在东祥的领导下能够再创辉煌。
,公与媳人伦片。06月02日,发挥优势,积极作为,香港打造全球人才聚集的“新高地”,
夏幽雨用手拢了拢乌黑亮丽的秀发,莹白的俏脸,晶莹若精灵般的耳朵,水灵灵的大眼,让她看起来出尘动人,她掌心霞光一闪,出现一块器物,似金非金似石非石,刻有一条条繁复的纹络。
,被迫穿cos⋯啊⋯嗯出奶黄文,欧美《交换做爰》,免费🔞成人❌❌二次元。时事2:原神爆乳❌流出清水
06月02日,上海将率先开展智能网联汽车准入和上路通行试点,
欢迎各位莅临上海安科瑞a股挂牌仪式!首先,我谨代表安科瑞全体员工,向长期以来关心和厚爱我们的各级政府、主管部门、社会各界以及广大投资者朋友们表示衷心的感谢!
,大乳老师婬荡呻吟HD电影,新疆旱厕高手贴近拍照视频,白丝校花🌸自慰到爽蜜乳。06月02日,加拿大皇家骑警逮捕印度裔加公民遇害案三名嫌犯,
“稍等,我们要确认下这到底是不是灵族。”一个浑身都被黑色斗篷所遮住的神秘人从辇车那里走来,他话语沙哑。
,啊好痛嗯流水了拔萝卜小说,肏屄视频,女人下面流白浆的视频。时事3:luluhei
06月02日,周雅琴:等待结果非常煎熬,拿到银牌很满意,
一大一小两个生灵激烈大战了数百招,不分胜负。一群凶寇都傻掉了,一个毛孩子能征战祭灵?不是亲眼所见,谁能相信!
,少萝被❌脱脱内内做运动代码,大妞直播全婐app免费下载,刘亦菲版极乐神教诸葛菲菲。06月02日,雨雪天气持续 山西运城发布暴雪和道路结冰双预警,
股权转让,是公司股东依法将自己的股东权益有偿转让给他人,使他人取得股权的民事法律行为。那么,什么情况下股权转让需要审批?
网友咨询:
什么情况下股权转让需要审批
律师解答:
通常情况下,股权转让事宜由转让方和受让方协商确定,不涉及股权转让的审批问题。
但在某些特定情况下,需要取得相关主管部门的批准或备案,比如,国有股权转让的,须报主管部门批复;
中外合资企业的股权转让须报原审批机关批准,证券、保险、银行等特殊性质的公司,股东变更需要履行相应的监管规定,报主管部门批准或备案。
律师补充:
股权转让需要注意的具体如下:
1、注意所签协议的主体。通常在股权转让中,出让股权的主体应该是公司股东,受让方则可以是公司的其他股东,也可以是公司股东外第三人。
2、股东会、或者其他股东的意见或决议。公司股东在对外第三人转让股权之前,必须要先征求公司其他股东的意见。
3、需要对前置审批程序加以关注。
4、有清晰的公司股权结构。
5、受让人应该要仔细分析受让股权所在公司的经营和财务情况。
6、受让人应该尽可能的了解受让股权的信息,以确认受让股权是否存在问题。
7、股权转让协议应当要求合同相对方,作出相应的保证及承诺。
8、应该及时至有关部门办理工商变更登记。
【法律法规】
《公司法》第七十一条
有限责任公司的股东之间可以相互转让其全部或者部分股权。
股东向股东以外的人转让股权,应当经其他股东过半数同意。股东应就其股权转让事项书面通知其他股东征求同意,其他股东自接到书面通知之日起满三十日未答复的,视为同意转让。其他股东半数以上不同意转让的,不同意的股东应当购买该转让的股权;不购买的,视为同意转让。
经股东同意转让的股权,在同等条件下,其他股东有优先购买权。
第一百三十九条
记名股票,由股东以背书方式或者法律、行政法规规定的其他方式转让;转让后由公司将受让人的姓名或者名称及住所记载于股东名册。
股东大会召开前二十日内或者公司决定分配股利的基准日前五日内,不得进行前款规定的股东名册的变更登记。但是,法律对上市公司股东名册变更登记另有规定的,从其规定。
同上一堂国家安全教育课个人心得体会(精选32篇),奶头又大又❌又白吃奶网站,成➕人➕网站➕免费孕妇,痛痛痛痛痛痛疼疼色版推特。时事4:脱裤子打屁股现代
06月02日,浙江义乌:外商一口气“豪买”15罐“东方巧克力”,
“啊,不!”
,美女露隐私秘免费视频网站,青色大脑手机下载安装,亚韩宝库。06月02日,黑龙江省侨办贺新春:诚挚邀请龙的传人龙年到龙江,
山林中发出一片惨叫声,而后烟尘冲天,八九米长的巨大穿山甲砸在了现场,让数头强大的生物骨断筋折,而它自己也成为了一滩烂泥,哪怕它的躯体坚硬如钢也不行。
,海贼王路飞❌娜美,纲手胸被爆❌羞羞免费视频,被学长抱进小树林c个爽动漫。责编:玛莲娜
审核:付树林
责编:刘敏芝