InstantCharacter 投稿量子位 | 公众号 QbitAI
GPT-4o带火的漫画风角色生成,现在有了开源版啦!
腾讯混元携手InstantX团队合作打破次元壁,开源定制化角色生成插件——InstantCharacter。
以往针对角色驱动的图像生成方法,都存在一定的缺陷。
例如,基于适配器的方案虽然基本实现主体一致和文本可控,但在泛化性、姿势变化和风格转换的开放域角色方面仍然存在困难。基于微调则需对模型进行重新训练,从而浪费过长的时间。更不必说,费用高昂的推理时间的微调。
而现在这个插件基于DiTs(Diffusion Transformers),能在保证推理效率和文本可编辑性的同时,完美实现角色个性化创作。
那么一起看看它具体是如何实现的?
方法介绍
现代 DiTs与传统的UNet架构相比,展现出前所未有的保真度和容量,为生成和编辑任务提供了更强大的基础。基于此,InstantCharacter扩展了DiT,从而用于强泛化性和高保真的角色驱动图像生成。
InstantCharacter的架构围绕两个关键创新展开:
1.可扩展适配器:开发了一个可扩展的适配器模块,有效解析角色特征并与DiTs潜在空间无缝交互。2.渐进训练策略:设计了一个渐进式三阶段训练策略,以适应收集的多功能数据集,使角色一致性和文本可编辑性的分开训练成为可能。
可扩展的适配器设计
传统的定制适配器,例如IPAdapter或ReferenceNet,在DiT架构中往往失效,因为它们是专为基于U-Net的模型设计的,缺乏可扩展性。
为了更好地适应DiT模型,研究员提出了一种可扩展的full-transformer适配器,它作为角色图像与基础模型潜在生成空间之间的关键连接,通过增加层深度和隐藏特征尺寸实现可扩展性。
该适配器由三个编码器块组成:
1.通用视觉编码器:首先利用预训练的大型视觉基础编码器来提取通用角色特征,从它们的开放域识别能力中受益。
以前的方法通常依赖于CLIP,因为它对齐了视觉和文本特征。然而,虽然CLIP能够捕捉抽象的语义信息,但它往往会丢失对维持角色一致性至关重要的详细纹理信息。为此,研究者用SigLIP替代CLIP,SigLIP在捕捉更细粒度的角色信息方面表现出色。
此外,引入DINOv2作为另一个图像编码器来增强特征的稳健性,减少背景或其他干扰因素导致的特征损失。
最后,通过在通道维度的拼接整合DINOv2和SigLIP特征,从而获得更全面的开放域角色表示。
2.中间编码器:由于SigLIP和DINOv2是在相对较低的384分辨率下预训练和推理的,在处理高分辨率角色图像时,通用视觉编码器的原始输出可能会丢失细粒度特征。为了缓解这个问题,采用双流特征融合策略分别探索低级特征(low-level features)和区域级特征(region-level features)。
首先,直接从通用视觉编码器的浅层提取low-level features,捕捉在更高层次中常常丢失的细节。
其次,将参考图像分割成多个不重叠的区块,并将每个区块输入视觉编码器以获取region-level features。
然后,这两种不同的特征流通过专用的中间transformer编码器进行分层整合。具体来说,每个特征路径都由独立的transformer编码器单独处理,以与高级语义特征整合。随后,来自两个路径的精炼特征沿着token维度连接,从而建立一个全面的融合表示,捕捉多层次的互补信息。
3.投影头:最后,精炼的角色特征通过投影头投射到去噪过程,并与潜在噪声交互。通过时间步感知的Q-former实现这一点,它将中间编码器输出作为键值对处理,同时通过注意力机制动态更新一组可学习的查询向量。转换后的查询特征随后通过可学习的交叉注意力层注入去噪空间。最终,适配器可以实现强身份保持和复杂文本驱动的灵活适应。
训练策略
为了有效训练该框架,研究者首先精心构建了一个高质量的数据集,包含1000万张多样化的全身人类/角色图像,包括用于学习角色一致性的配对图像和用于实现精确文本到图像对齐的非配对数据集。
其次,精细设计了训练方案,以优化角色一致性、文本可控性和视觉保真度。为了实现角色一致性,首先使用未配对数据进行训练,其中角色图像作为参考引导进行自重建,以保持结构一致性。同时研究发现使用512的分辨率比1024更为高效。
在第二阶段,继续以低分辨率(512)进行训练,但切换到配对训练数据。为生成不同动作、姿势和风格的角色图像,研究者通过将角色图像作为输入,生成新场景中的角色。这个训练阶段有效消除了复制粘贴效应,增强了文本可控性,确保生成的图像准确遵循文本条件。
最后一个阶段涉及使用配对和非配对图像进行高分辨率联合训练。团队发现有限数量的高分辨率训练迭代可以显著提高图像的视觉质量和纹理。这一阶段利用了高质量图像实现高保真和文本可控的角色图像。
实验结果
作者对基于FLUX的先进方法进行定性比较:OminiControl、EasyControl、ACE+和UNO;以及大型多模态模型GPT4o。为了评估,作者收集了一组不存在于训练数据中的开放域角色图像。
现有方法存在局限性:OminiControl和EasyControl无法保留角色身份特征,而ACE++仅在简单场景中保持部分特征,但在面对动作导向的提示时表现不佳。UNO过度保持一致性,这降低了动作和背景的可编辑性。可以看到,InstantCharacter达到了与GPT4o相当的结果,但它不是开源的。
相比之下,InstantCharacter始终表现最佳。具体而言,InstantCharacter在保持精确的文本可控性的同时,实现了更出色的角色细节保留和高保真度,即使是针对复杂的动作提示。
InstantCharacter还可以通过引入不同的风格loras来实现灵活的角色风格化。如图所示,InstantCharacter可以在吉卜力和Makoto风格之间切换,同时不影响角色一致性和文本可编辑性。然而,Jimeng和GPT4o很难灵活地保持这些风格。
本文插件代码及项目均已开源,鼓励更多的人积极参与相关工作探讨。
论文地址:https://arxiv.org/abs/2504.12395代码地址:https://github.com/Tencent/InstantCharacter项目地址:https://instantcharacter.github.io/
《德国艳妇VidaSO灌满》,《w3u7903ejky2ywls》伍六七曼珠沙华穿泳装
“甘雨撕开内衣👙吸奶头动漫”
美女露10尿孔无挡的撒尿
……
05月04日
“91脱👙让学生摸🐻蘑菇”揭秘“开卖太空旅游船票”公司
↓↓↓
05月04日,新疆两条直流工程年内外送电量超千亿千瓦时,少归被❌到爽🔞流,裸体裸乳被🍑日本动漫,邓紫棋裸被❌高清网站,杨钰莹被黑人无套内谢
05月04日,WTA广网公开赛落幕 张帅好事成双加冕四冠王,阿米娅病狂❌喷水自慰小说,休内谢精一汇编的深刻含义和意义,鸣人同人动漫,芭芭拉被❌吸乳羞羞图片
05月04日,(新春走基层)乌鲁木齐:市民选购花卉为新春添彩,学生精品videosex极品,女人张开腿涩涩秘黄漫游戏视频,少妇裸交全过程,班长让我吃他🐻我脱她衣服
05月04日|山西运城向“新”出发 擘画高质量发展蓝图|❌❌❌❌老师XXXX|自鹿被狂揉下部❌羞羞小说|脱👙让学生C🐻文|小樱沦为性玩物暴露调教
05月04日|天津:“五一”假日举行宠物露营音乐节|雏田被鸣人暴❌动漫|小受被惩罚扒开 9 9视频网站|少司缘跪着玩弄翘臀呻吟|新婚H圆房~H嗯啊1V2动漫
05月04日|消失的野味在网上卷土重来 多措并举禁食野味|大荫蒂女人特写HD另类图片|美女露隐私秘免费视频扣扣传媒|偷拍50个女厕大屁股|火影忍者手鞠❌爆乳无尽……
05月04日,整花活,狂摇人,这届文旅局都“疯”了?,国产jy视频,福利姬cosplayH裸体の福利,梅根福克斯床戏被❌乳液,美女㊙️下部隐私图片
05月04日,记者调查发现二手交易市场检测混乱“水分大”,撕开内衣👙吸奶头的电视,jk胡桃打开双腿❌❌漫画,FurryGay Fuck Gay r18,娇小6一8ⅹ❌ⅹⅹⅹA片
05月04日|亚太主流媒体冰城行举行 14国主流媒体提前探访“亚冬会”|男人的🍌伸到🍑里拔萝91|91在线精品㊙️一区二区黄瓜|破解版黄色视频|国产男女无套✅在线播放
05月04日,祝贺!国羽男队第11次夺得汤姆斯杯冠军,免费无遮挡🔞动漫游戏,成人夜晚看Av❌❌❌戴避孕套,艾莎安娜爱莎被套,双男玩弄+羞辱+惩罚+道具扩张
05月04日,(高质量发展调研行)走进浙江杭州谢径安·传化农创村,少妇高潮喷出白浆,赵今麦乳头无遮挡,美女变态捆绑内衣,5哈中鹿晗碰到关晓彤哪一期
05月04日,太湖流域水治理国际会议开幕,com.HOtDC.tFQPL,丝袜美腿无码AV在线观看视频,刚发育的女同学裸体,校花被喂春药双腿张开视频
05月04日|【理响中国】把邓小平同志开创的中国特色社会主义事业继续推向前进|🖤禁漫天堂🖤雏田被C小说|Z〇Z○女人另类Z〇Zo挤奶|98在线无码精品㊙️入口男同|大尺度奶涨吃奶做爰
05月04日|248个!新一批全国民族团结进步示范区示范单位公布|51漫画❌黄漫免费|扒开🍑让老师🍌进去|中国人体祼交乂ⅹ|3D艾达被❌到爽喷水视频
05月04日|【澜湄印象】“乘”专列进京的老挝香蕉抢“鲜”售空 商户:“下一批已经在路上!”|成人性生交大片免费看A片雄兵连|国产男男Gay互吃鸣巴水电工|男总裁被C哭还流着尿高H漫画|极品国产白皙nba
Re: 复仇-在欲望的尽头-,百里屠苏好久不见|优化海南自贸港营商环境 海口海关促贸易便利化|地下偶像蓝毛拔萝卜樱花|裸体大肚子孕妇网站|免费❌️吸乳羞羞网站视频|清漪同人❌AV黄漫
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺