新智元报道
编辑:Aeneas 犀牛
【新智元导读】就在刚刚,智源研究员联合多所高校开放三款向量模型,以大优势登顶多项测试基准。其中,BGE-Code-v1直接击穿代码检索天花板,百万行级代码库再也不用怕了!
检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。
针对这一需求,近日,智源研究院联合多所高校研发了三款向量模型,包括代码向量模型BGE-Code-v1,多模态向量模型BGE-VL-v1.5以及视觉化文档向量模型BGE-VL-Screenshot。
这些模型取得了代码及多模态检索的最佳效果,并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等领域内主要测试基准。
BGE自2023年8月发布以来,已成为中国首个登顶Hugging Face榜首的国产AI模型以及2023年所有发布模型的全球下载量冠军。
目前,BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot三款模型已向社区全面开放,为相关技术研究与产业应用提供助力。
BGE-Code-v1:
模型地址:https://huggingface.co/BAAI/bge-code-v1
项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder
论文链接:https://arxiv.org/abs/2505.12697
BGE-VL-v1.5:
模型地址:https://huggingface.co/BAAI/BGE-VL-v1.5-zs
项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL
论文链接:https://arxiv.org/abs/2412.14475
BGE-VL-Screenshot:
模型地址:https://huggingface.co/BAAI/BGE-VL-Screenshot
项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL_Screenshot
论文链接:https://arxiv.org/abs/2502.11431
由智源研究院主导研发的通用向量模型系列BGE,旨在为各类数据提供高效一站式向量表征与语义检索方案,已推出覆盖中英文、多语言检索及重排模型等多个版本,持续刷新MTEB、C-MTEB、BEIR、MIRACL等主流文本向量评测基准。
BGE凭借高性能与开源特性备受业界关注,已广泛应用于RAG、神经搜索等场景,累计下载超6亿次,被国内外多家AI企业集成。
目前,检索增强技术正从传统的文本场景逐步拓展至涵盖代码与视觉等多模态数据的应用。
然而,相较于文本领域,现有向量模型在代码和视觉模态中的检索效果仍有待提升。
此次智源研究院发布的三款新模型,为构建更强大的多模态检索增强系统提供了有力的支持。
BGE-Code-v1
新一代代码优化语义向量模型
随着基础模型代码能力快速发展,Cursor、Copilot等辅助编程工具大幅提升生产力。
在面对百万行级代码库时,代码块检索增强需求凸显,因此检索模型的代码理解能力至关重要。
BGE-Code-v1是以Qwen2.5-Coder-1.5B为基座打造的新一代代码向量模型,专为各类代码检索相关任务而设计,同时配备了强大的多语言文本理解能力。
模型基于CoIR训练集和大量高质量代码-文本的合成数据进行训练,并使用课程学习,以BGE-gemma2-multilingual 的retrieval、STS数据为辅助,进一步提升代码与文本的理解能力。
BGE-Code-v1适用于开发文档搜索、代码库语义检索、跨语言信息获取等多种实际应用场景,是面向代码-文本检索任务的最优选择。
CoIR代码检索基准,收集了覆盖14种编程语言的4大类8个子任务,能够有效地评估模型在自然语言和代码的各类混合场景中的检索能力。
CodeRAG-Bench基准评估了代码检索模型在代码检索增强(RACG)中的表现。
BGE-Code-v1在两个基准上均以显著优势超越谷歌、Voyage AI、Salesforce、Jina等商业/开源模型,登顶SOTA。
BGE-VL-v1.5
通用多模态检索模型
BGE-VL-v1.5 完成多模态检索任务
BGE-VL-v1.5是基于LLaVA-1.6(7.57B参数)训练的新一代通用多模态检索模型,全面升级了图文理解能力并具有更强大的检索能力。
BGE-VL-v1.5在MagePairs 300万 (3M) 图文对齐数据基础上又收集了共100万条自然与合成数据(涵盖image-captioning数据、视觉问答数据、分类任务数据)进行多任务训练,显著地提升了模型在各类任务上的泛化性与理解能力。
基于MegaPairs数据,BGE-VL-v1.5在多模态检索任务中性能优势显著,不仅在图像检索中表现强劲,更在通用多模态场景中展现高适应性与准确率,适用于图文匹配、多模态问答、跨模态推荐等场景。
MMEB是当前使用最广泛的多模态向量基准,由:分类、视觉问答、检索、视觉基础知识,四类任务构成。
基于zero-shot设置(未使用MMEB训练集),BGE-VL-v1.5-zs在MMEB基准中刷新zero-shot模型最佳表现;在检索任务上,基于MMEB微调的BGE-VL-v1.5-MMEB以72.16分登顶SOTA。
BGE-VL-Screenshot
实用强大的视觉化文档向量模型
实际场景中网页、文档等多模态任务常由图文、符号、图表等多元素混合数据构成,这类任务称为「可视化信息检索」(Vis-IR),因此,多模态模型不仅需要具备从复杂结构中提取关键信息的视觉能力,还需精准理解文本与视觉语义。
目前,现有检索模型在此类任务中表现欠佳。
BGE-VL-Sc基于截图与文本检索
BGE-VL-Screenshot模型基于Qwen2.5-VL-3B-Instruct,以新闻、商品、论文、文档、项目主页等七类数据源进行训练,收集超过1300万张截图和700万组标注截图问答样本。
为了准确评估模型在Vis-IR任务上的表现,团队设计并推出了多模态检索基准MVRB(Massive Visualized IR Benchmark,涵盖截图检索、复合截图检索、截图QA和开放分类4项任务共20个数据集。
MVRB榜单链接:https://huggingface.co/spaces/BAAI/MVRB_leaderboard)
BGE-VL-Screenshot在4项任务中表现出色,以60.61的综合得分达到SOTA。
在此基础上,通过少量query2screenshot多语言数据训练,模型实现了在英文之外的多语言任务上的出色表现。
智源研究院将继续深耕向量模型与检索增强技术,进一步提升BGE模型系列的能力与通用性。
未来期待与更多科研机构与产业伙伴合作,共同推动检索与人工智能发展。欢迎广大研究者与开发者关注并使用 BGE 系列模型,共建开放繁荣的开源生态。
《kula同人本子》,《w3u7903ejky2ywls》迈开迈尝尝森林的味道
“97在线无码精品㊙️入口男同”
孟子义洗澡时被c到高潮小说
……
05月31日
“小母狗水好多主人”黄仁勋回应常年穿皮衣
↓↓↓
05月31日,中新健康|专家:进入靶免治疗时代 肿瘤治疗机遇与挑战并存,舌头伸进去添高潮A片,巨胸爆乳❌❌❌在线看,多强被❌c到爽🔞H真人,动漫无码番肉18魅魔链接
05月31日,【台青在大陆】何冠奕:山水城林的南京很宜居,别揉我啊嗯~喷水了男男,天堂18🈲🍆🍑无套直jk,雷电将军爆乳18禁🔞网站,河娃极速版官网网页版入口
05月31日,重庆32个涉灾区县冬春救助资金全部发放到位,高清🈚码🔞❌♋网站欧美,美女脱一光二净打屁股,崩坏H黄污同人18禁,男人㊙️桶进女人下面91
05月31日|“你们这个实验室设在什么地方?”|两会问答·总书记的牵挂⑥ |美女裸体❌羞羞尿裤子网站|撕开她的乳罩慢慢揉捏韩国视频|13学生小嫩嫩裸体自慰韩国电影|老师露出👙👙让我🍌🍌
05月31日|吴志良:搭起沟通桥梁 共建人文湾区|Brazzers365💋💋|免费体育生导管素材网站|荫蒂添的全过程视频免费看|琴团长被揉到高潮下不了床
05月31日|中新真探:冬天洗澡先洗头会引发猝死吗?|伪装的微笑|被吃奶胸玩乳尖60分钟|啊日出水了用力熟女视频|欧美0000❌❌❌少妇……
05月31日,抵制高额彩礼 倡导文明风尚——各地民政部门扎实推进婚俗改革,小舞解开内裤给戴沐白开了摸视频,白丝jk爆乳的软件,羞羞18🈲拔萝卜免费观看,Free❌❌❌❌日本谷原希美
05月31日,水花消失术如何练成?跳水“梦之队”的“武功秘籍”来了,不要了,不要了,已经饱了”,嫌我艹的慢,,真人实拍尿裤子丨VK,嗯∽啊~轻点禁🔞视频下载,少妇被到爽流自慰多人
05月31日|飞跃更高 男子撑杆跳高杜普兰蒂斯打破世界纪录|云缨3D同人18❌AV漫画网站|曼尼哈里斯录像|姐姐直播3.6.1|国产精品🈲久久久精品cos
05月31日,解放军驻香港部队组织第二十七次建制单位轮换,✿爆乳女神✿▌麻酥酥▌网站,❌裸乳❌动漫❌,苍井空做爰高潮A片久久直播,3D黄漫❌18禁触手怪
05月31日,中埃关于巴勒斯坦问题的联合声明,裸体㊙️人妖,女生都是几岁开始手的,裸体❌动漫❌3d在线观看,宁荣荣含精肉臀18🈲️
05月31日,大湾区出行更便捷 微信扫码可付香港的士费,Jαspspank打屁股调教2,红桃91天美传媒,琪亚娜被空之律者控制,爱色AV
05月31日|教育部举办全国教育系统2025届高校毕业生招聘活动|迦南❌爆爽自慰喷水漫画|白丝校花扒腿让我C在线下载|㊙️羞羞漫画破解版|裸交做爰XXXⅩ性爽
05月31日|枪案幸存者深受困扰,美国种族犯罪和枪支暴力痼疾难消!|老师❌动漫十大胸❌触|跪在妺妺脚下吃玉足|欧美乱大交做爰XXXⅩ|萝卜黄9·1幺
05月31日|“丝路古邑·锦绣都兰”亮相2024宁波国际旅游展|嗯~啊~轻一点高清代码|唐三h朱竹清乳爆|成人🔞涩涩漫画|дело1سىكىش.
女生高考后一觉睡30个小时,于正删除了对琼瑶的道歉函|“最北夫妻警务室”史先强当选2023“感动龙江”年度人物|爽妇网com|www.坤坤浏览器|啊〜好痛〜嗯〜轻点毛片|湖南张莉对战老外
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺