谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic
智东西编译 金碧辉编辑 程茜
智东西5月28日消息,据科技媒体The Decoder 5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型进行多模态能力标准化评估。
LMEval基于LiteLLM框架(能让开发者通过统一API便捷调用GPT、Claude、Llama等上百款大模型,并支持流式响应、批量推理及成本监控等功能的开源框架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大厂商API接口,首次实现文本、图像、代码三类任务的一站式评测,并通过增量评估技术减少80%重复测试算力消耗。
LMEval的源代码和示例笔记本已经在GitHub上公开,供广大开发者使用和研究。
地址:https://github.com/google/lmeval
一、跨平台互通,采用增量评估+多线程并行计算技术,测试效率提升5倍
LMEval基于LiteLLM框架,将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口标准化,开发者无需针对不同平台重写测试代码。
同时,科技媒体The Decoder援引谷歌官方说道,LMEval系统采用增量评估技术,配合多线程并行计算,能节省80%算力,原本8小时的测试流程可压缩至1.5小时。
在评估场景层面,LMEval突破了单一文本问答的局限,将图像理解、代码生成等场景纳入评测范畴,满足多领域对大模型能力评测的需求。
在题型方面,LMEval提供了是非判断、多选问答、开放式生成等多达12种题型,为全面评估模型在不同任务形式下的表现创造了条件。同时,LMEval模块化设计允许开发者依据自身研究或业务需求,灵活添加新的评估维度,增强了框架的扩展性与适应性。
在安全评估层面,LMEval新增的规避性回答检测功能能够识别模型在面对敏感问题时所采取的推诿策略,这对于评估模型在处理敏感信息时的可靠性意义重大。
▲Giskard的安全评分显示了不同的AI模型如何有效地规避潜在的有害内容。百分比越高,安全性就越高。(图源:谷歌)
在数据存储与隐私保护层面,LMEval将测试数据存储于自加密的SQLite数据库中,本地访问需密钥验证,有效阻断搜索引擎抓取,在数据使用过程中全方位保障数据安全与隐私。
二、评测成本直降90%,月之暗面已部署
据The Decoder报道,LMEval采用增量评估技术后,企业新增测试场景的运维成本降低90%。国内大模型创业公司月之暗面技术负责人王海明、刘征瀛在今年5月26日谷歌LMEval框架发布后的媒体沟通会上透露,该工具已应用于其内部流程优化,在未使用LMEval前,月之暗面针对新模型或新场景的评测往往需要数周时间来搭建测试环境、设计评测流程以及执行测试。
而引入LMEval后,原本复杂冗长的流程得以简化,现在仅需几天就能完成一轮全面评测,研发周期大幅缩短超两周。
LMEval配套的LMEvalboard可视化工具支持生成雷达图,能直观对比不同模型在各项能力上的表现短板。
开发者点击图表即可查看具体错误案例,还能并排对比不同模型对同一问题的响应差异,助力精准定位模型性能优劣,为模型的优化与改进提供有力依据
结语:谷歌开源LMEval框架,打通五大厂商API接口
谷歌开放的开源框架LMEval基于LiteLLM框架,打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,让开发者能在统一环境下评测不同来源模型。通过模块化设计,它可同时满足文本、图像、代码等多模态评估需求,提供12种题型,还能灵活添加新评估维度。而增量评估技术配合多线程并行计算,节省80%算力,使企业新增测试场景的运维成本降低90%,显著提升测试效率、降低测试成本。
谷歌推出的LMeval框架通过标准化和灵活性的结合,为研究人员和开发者提供了便利。在未来,随着AI技术的不断演进,LMeval框架或有可能成为行业内评测工作的标准,助力推动AI模型的持续发展与优化。
来源:The Decoder
扒开小舞❌狂揉❌3d
揉⋯啊⋯嗯~出水了第一集
在公交车里c弄到高C了动漫
明日方舟R18❌羞羞漫画
美女裸体被❌涩涩漫画软件
国产四爱pegging女攻男受
🔞漫画网站
九色🔥蝌蚪👉熟女
无尽❌裸体❌触手❌视频
孕妇生孩子㊙️免费网站
福瑞18+冲酸奶
美女➕光屁屁➕韩国18禁
美女扒开内👙内裤看个够
H版巜劳拉的性放荡
扒开学生双腿猛进入喷水男男
王雨露孔头大全列表
女奥特曼被电击身亡
少妇婬荡呻吟久久久久久麻豆网站
成人视频免费
芭乐视app下载网址进入ios
千仞雪被唐三摁在床上草
男明星AI换脸无码大片
动漫美女被❌到爽🔞
冰雪奇缘婬乱版在线观看
雏田爆乳被❌🔞㊙动漫
倪萍婬肉泬第50章
涂山容容被c到高潮下不了床小说
色欲AV㊙️无码松柏林传媒
黄景瑜下面又大又粗又长
美女全身裸体㊙️打屁股
furry喵鲨18❌动漫网站的
芙宁娜撕内衣👙挠奶头视频
妲己被狂❌无码流出漫画
春药➕灌尿➕调教➕电击软件
国产91❤️白丝在一线播
日本・人妻の亂倫情2漫画
女人的屁股眼㊙️
女人又爽又黄免费黑人
少妇被骚汉❌到爽🔞流片视频
XX小U呦交UUXXX
亚洲AV第二区国产精品
18🈲动漫在线观看
打女高中生╳光屁股♥
把手❌🍑很疼
洛天依在床上被强Ⅹ的动漫
91丨PORNY丨💃🏻
扒开老师❌狂揉❌难受视频
成人免费看片❌❌动漫
女生扒开自己的🍑子给闺蜜玩
zzj中国zz女人18高潮
把下面扒开我教你自慰
91❤️国产丝袜在线播
美女露大胸㊙️跳舞动漫
哆啦A梦静香同人羞羞51漫画❌
羞羞视频网站
100%无遮挡裸体美女视频
成人H秘小说在线小说
克里斯汀裸被❌视频
巴西性❌❌❌❌狂欢
大雷吃狙免费观看网站
色老头OdHDⅩXXX69
把屁屁打到嫩红网站
㊙️好爽好大高潮人口
美脚の诱脚舐め脚
Пикап🎭HD
小太正Gay在浴室自慰❌❌
好想被c秘好爽n游戏
停电了被男同桌狂揉我奶胸贴吧
男朋友脱我内裤揉我下面动漫
货骚在玻璃窗前c爽吗
色七影院
masterpieces第1~2集
裸体被❌羞羞动漫网站
www.costku.com
少妇做受❌❌高潮抖荫
女被c黄扒衣服办公室
疯狂❌自慰爽站男同
《卖保险套的女销售》
男自慰✅免费第一次
喝奶汁动漫
吹潮喷水高潮HD
网友评论 查看所有评论>>