姜东志,香港中文大学MMLab博士,研究方向为理解与生成统一的多大模型及多模态推理。在ICML, ICLR, NeurIPS, ECCV, ICCV等顶级会议上发表过论文。
最近的大语言模型(LLMs)如 OpenAI o1 和 DeepSeek-R1,已经在数学和编程等领域展示了相当强的推理能力。通过强化学习(RL),这些模型在提供答案之前使用全面的思维链(CoT)逐步分析问题,显著提高了输出准确性。最近也有工作将这种形式拓展到图片理解的多模态大模型中(LMMs)中。然而,这种 CoT 推理策略如何应用于自回归的图片生成领域仍然处于探索阶段,我们之前的工作 Image Generation with CoT(https://github.com/ZiyuGuo99/Image-Generation-CoT)对这一领域有过首次初步的尝试。
与图片理解不同,图片生成任务需要跨模态的文本与图片的对齐以及细粒度的视觉细节的生成。为此,我们提出了 T2I-R1—— 一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型。
论文标题:T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT论文地址:https://arxiv.org/pdf/2505.00703代码地址:https://github.com/CaraJ7/T2I-R1机构:港中文 MMLab、上海 AI Lab
方法介绍
具体而言,我们提出了适用于图片生成的两个不同层次的 CoT 推理
Semantic-CoT
Semantic-CoT 是对于要生成的图像的文本推理,在图像生成之前进行。负责设计图像的全局结构,例如每个对象的外观和位置。优化 Semantic-CoT 可以在图片 Token 的生成之前显式地对于 Prompt 进行规划和推理,使生成更容易。
Token-CoT
Token-CoT 是图片 Token 的逐块的生成过程。这个过程可以被视为一种 CoT 形式,因为它同样是在离散空间中基于所有先前的 Token 输出后续的 Token,与文本 CoT 类似。Token-CoT 更专注于底层的细节,比如像素的生成和维持相邻 Patch 之间的视觉连贯性。优化 Token-CoT 可以提高生成图片的质量以及 Prompt 与生成图片之间的对齐。
然而,尽管认识到这两个层次的 CoT,一个关键问题仍然存在:我们怎么能协调与融合它们?
当前主流的自回归图片生成模型如 VAR 完全基于生成目标进行训练,缺乏 Semantic-CoT 推理所需的显式文本理解。虽然引入一个专门用于提示解释的独立模型(例如 LLM)在技术上是可行的,但这种方法会显著增加计算成本、复杂性和部署的困难。最近,出现了一种将视觉理解和生成合并到单一模型中的趋势。在 LMMs 的基础上,这些统一 LMMs(ULMs)不仅可以理解视觉输入,还可以从文本提示生成图像。然而,它们的两种能力仍然是解耦的,通常在两个独立阶段进行预训练,没有明确证据表明理解能力可以使生成受益。
鉴于这些潜力和问题,我们从一个 ULM(Janus-Pro)开始,增强它以将 Semantic-CoT 以及 Token-CoT 统一到一个框架中用于文本生成图像
我们提出了 BiCoT-GRPO,一种使用强化学习的方法来联合优化 ULM 的两个层次的 CoT:
我们首先指示 ULM 基于 Image Prompt 来想象和规划图像来获得 Semantic-CoT。然后,我们将 Image Prompt 和 Semantic-CoT 重新输入 ULM 来生成图片以获得 Token-CoT。我们对于一个 Image Prompt 生成多组 Semantic-CoT 和 Token-CoT,对于得到的图像计算组内的相对奖励,从而使用 GRPO 的方法来在一个训练迭代内,同时优化两个层次的 CoT。
与图片的理解任务不同,理解任务有明确定义的奖励规则,图像生成中不存在这样的标准化的规则。为此,我们提出使用多个不同的视觉专家模型的集成来作为奖励模型。这种奖励设计有两个关键的目的:
它从多个维度评估生成的图像以确保可靠的质量评估作为一种正则化方法来防止 ULM 过拟合到某个单一的奖励模型
根据我们提出的方法,我们获得了 T2I-R1,这是第一个基于强化学习的推理增强的文生图模型。
实验
根据 T2I-R1 生成的图片,我们发现我们的方法使模型能够通过推理 Image Prompt 背后的真实意图来生成更符合人类期望的结果,并在处理不寻常场景时展现出增强的鲁棒性。
同时,定量的实验结果也表明了我们方法的有效性。T2I-R1 在 T2I-CompBench 和 WISE 的 Benchmark 上分别比 baseline 模型提高了 13% 和 19% 的性能,在多个子任务上甚至超越了之前最先进的模型 FLUX.1。
© THE END
《高中妺妺让我c了她一夜作文》,《w3u7903ejky2ywls》女生手脚固定架刑具手抄报
“MMD➕无码➕高潮➕”
用力哦高潮喷了汤视频
……
05月11日
“嗯∽啊~轻点禁🔞揉胸视频”NANA TOUR with SEVENTEEN
↓↓↓
05月11日,匈牙利期待开启匈中两国关系新篇章,XXNX馃憴98馃崙,胡桃狂揉❌下部❌难受,他趴在两腿中间添我出水漫画,18禁美女被❌摸下面视频网站
05月11日,(巴黎残奥会)克服困难迎接挑战 “金牌大户”中国体育代表团游泳队力争佳绩,成人浏览器网站,国产精品天美传媒,涂山容容被c到高潮下不了床小说,🔯黄🔯色🔯甘🔯女
05月11日,伊朗和巴基斯坦商定两国大使本周内返岗,宝贝把腿开大让我添添你男男,原神18申鹤被💟视频在线看,色情性黄片涩涩涩的视频,男人自熨有声视频全过程
05月11日|天津印发方案对接国际高标准 推进自贸区制度型开放|裸体初音未来被❌到爽视频网站|唐嫣性做爰A片|大司命被扒开腿做高H电影|伊蕾娜的胸襟距离观察过程
05月11日|秘鲁驻华公使谈钱凯港:只有中国把开发落到实处|亚洲⭕⭕⭕⭕XXX222310|国产91精品无码麻豆更新时间|亲近相尾中文版2023年最新一期|伊蕾娜已经回天乏术怎么办
05月11日|前10月中国服务贸易继续快速增长 旅行服务成为服务贸易第一大领域|男同Gay做受Gay片|itchio福瑞娘游戏|穿扒开🍑跪着让客人打屁股微博|麻豆AV精品韩国黄雅英AV……
05月11日,韩国国防部召开全军指挥官会议 称将加强戒备,jinricp艾莉无码视频在线播放,四十三岁的沈秀琴小说,同性男男A片免费播放,金艺贞仙女屋vip🔞
05月11日,【央视快评】加强普惠性基础性兜底性民生建设 积极主动做好事办实事解难事 ,男男GayGays✅✅2022,furry莱卡恩榨精Gay片同性,欲梦直播露出奶头图片,肖雅婷1v3榜一
05月11日|湖南张家界上演峰林杂技秀 多国杂技表演者登台献技|1v1高辣|(H)-边潮喷边尿男男|白丝JK裸体被❌出水|Gay2022Gay打桩机
05月11日,中国正能量|晋琼古韵中的文化自信,馊馊让你曰个够,白丝JK美女裸体❌出,欧美高清HD19❌❌❌,13男生下部发育图片
05月11日,中国淡水渔都生态养鱼蝶变:一条鱼的共富密码,三笠同人18❌黄漫网站,小🐤🐤戳进🍑茄子,果冻传媒在线观看,偷拍BBB妇女撒尿BBBB
05月11日,台铁太鲁阁号脱轨致49死 台铁前局长、处长降级,🈲️18水蜜桃,国产偷人妻精品一区K八理伦电影,Chinesespanking惩罚打屁股,hjd聚友客栈bbs
05月11日|全国政协人口资源环境委原副主任,陕西省政协原党组书记、主席韩勇被开除党籍|原神❌18同人禁网站抱|男同被❌到爽🔞流网站|富家养女被轮流爆炒的小说|公车上拨开少妇内裤进入青少年号
05月11日|中方:敦促美方停止纵容支持“台独”势力“以武谋独”|不良人将臣黄改|做运动🔞露出🍑游戏软件麻豆|十八禁🔞裸体福利姬cos|成人扒开🍑
05月11日|“和谐使命-2024”:“和平方舟”号医院船驶入地中海|男女又爽❌又黄❌免费怀孕电影|艾达王被❌到流水|男男Gay🔞网站|男人边吻奶边挵进去无遮挡
月经3天和7天均属正常,无法告白|法治新征程 | 破案293起,抓获2108人!警方打击民族资产解冻类诈骗犯罪|日本人吃胸玩乳30分钟|美女裸体100%无挡视频|宋雨琦自慰❌❌裸体喷水|A🔞W看🔴䏒🔞漫画下载
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺