智东西编译 金碧辉编辑 程茜
智东西5月28日消息,据科技媒体The Decoder 5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型进行多模态能力标准化评估。
LMEval基于LiteLLM框架(能让开发者通过统一API便捷调用GPT、Claude、Llama等上百款大模型,并支持流式响应、批量推理及成本监控等功能的开源框架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大厂商API接口,首次实现文本、图像、代码三类任务的一站式评测,并通过增量评估技术减少80%重复测试算力消耗。
LMEval的源代码和示例笔记本已经在GitHub上公开,供广大开发者使用和研究。
地址:https://github.com/google/lmeval
一、跨平台互通,采用增量评估+多线程并行计算技术,测试效率提升5倍
LMEval基于LiteLLM框架,将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口标准化,开发者无需针对不同平台重写测试代码。
同时,科技媒体The Decoder援引谷歌官方说道,LMEval系统采用增量评估技术,配合多线程并行计算,能节省80%算力,原本8小时的测试流程可压缩至1.5小时。
在评估场景层面,LMEval突破了单一文本问答的局限,将图像理解、代码生成等场景纳入评测范畴,满足多领域对大模型能力评测的需求。
在题型方面,LMEval提供了是非判断、多选问答、开放式生成等多达12种题型,为全面评估模型在不同任务形式下的表现创造了条件。同时,LMEval模块化设计允许开发者依据自身研究或业务需求,灵活添加新的评估维度,增强了框架的扩展性与适应性。
在安全评估层面,LMEval新增的规避性回答检测功能能够识别模型在面对敏感问题时所采取的推诿策略,这对于评估模型在处理敏感信息时的可靠性意义重大。
▲Giskard的安全评分显示了不同的AI模型如何有效地规避潜在的有害内容。百分比越高,安全性就越高。(图源:谷歌)
在数据存储与隐私保护层面,LMEval将测试数据存储于自加密的SQLite数据库中,本地访问需密钥验证,有效阻断搜索引擎抓取,在数据使用过程中全方位保障数据安全与隐私。
二、评测成本直降90%,月之暗面已部署
据The Decoder报道,LMEval采用增量评估技术后,企业新增测试场景的运维成本降低90%。国内大模型创业公司月之暗面技术负责人王海明、刘征瀛在今年5月26日谷歌LMEval框架发布后的媒体沟通会上透露,该工具已应用于其内部流程优化,在未使用LMEval前,月之暗面针对新模型或新场景的评测往往需要数周时间来搭建测试环境、设计评测流程以及执行测试。
而引入LMEval后,原本复杂冗长的流程得以简化,现在仅需几天就能完成一轮全面评测,研发周期大幅缩短超两周。
LMEval配套的LMEvalboard可视化工具支持生成雷达图,能直观对比不同模型在各项能力上的表现短板。
开发者点击图表即可查看具体错误案例,还能并排对比不同模型对同一问题的响应差异,助力精准定位模型性能优劣,为模型的优化与改进提供有力依据
结语:谷歌开源LMEval框架,打通五大厂商API接口
谷歌开放的开源框架LMEval基于LiteLLM框架,打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,让开发者能在统一环境下评测不同来源模型。通过模块化设计,它可同时满足文本、图像、代码等多模态评估需求,提供12种题型,还能灵活添加新评估维度。而增量评估技术配合多线程并行计算,节省80%算力,使企业新增测试场景的运维成本降低90%,显著提升测试效率、降低测试成本。
谷歌推出的LMeval框架通过标准化和灵活性的结合,为研究人员和开发者提供了便利。在未来,随着AI技术的不断演进,LMeval框架或有可能成为行业内评测工作的标准,助力推动AI模型的持续发展与优化。
来源:The Decoder
《白丝纲手好紧⋯好大好爽》,《w3u7903ejky2ywls》com,www
“XXNX日本52”
18+无码➕高潮+白丝
……
06月01日
“不知火舞侵犯の奶水授乳”朝鲜副外相罕见访问蒙古国
↓↓↓
06月01日,重庆石柱发展壮大“三色”产业 绘就乡村振兴新画卷,男Gay动漫cartoon,6losccA片毛片,澡池里强摁做开腿呻吟H微博,禁♥漫画天♥堂♥原♥神
06月01日,(文化中国行)国家博物馆馆长谈“文博热”:民族文化自信大幅提升的集中体现,爽⋯躁多水⋯快⋯深点无码,一女被二男添高潮A片,女S调教男M视频丨VK,4i小狗抖m
06月01日,【小新的Vlog】在宁夏沙湖乘破冰船体验“破冰”之旅,爽⋯好大⋯快⋯深点奥特曼,高跟鞋扫楼打胶鞋网站,初中生黑脚射丝鞋,麻豆黄漫❌18禁动漫原神
06月01日|本周两股冷空气“兵分两路”接连来袭!南方的冬天要提上日程啦!|欧美三人囗交做爰|激情抽插|不知火舞❌爆奶水视频|免费熊片胖熊自慰Gay
06月01日|武汉轮渡之变:跨越时空承载江城记忆|艾俊揉玛丽娜胸|美女被男生❌免费视频网|91丨国产丨白浆㊙️洗澡APP|张津渝www在线观看
06月01日|“碳”路先行|山东港口青岛港如何“氢”装上阵?|小十四萝裸体洗澡自慰|裸体美女被触手❌到高潮|情侣之夜动漫第1季在哪看|xXx╳动漫性潮喷❌╳❌╳……
06月01日,崔健林忆莲李宇春等歌手齐聚南京 唱响音乐节,高➕H➕肉放荡爽动漫,神里绫华被❌被挤乳羞羞,原神疯狂❌喷水自慰爽18禁,亚洲人 女学生 打屁股网站
06月01日,俄议员:北约是进攻性集团 根本目标是削弱分裂俄罗斯,裸体军人XXXⅩ裸体,人与禽一级A片A片毛片伊人色,免费成人结,3d同人动漫免费看
06月01日|对外贸易持续回稳向好——中国经济首季报亮点之五|奇优手机版免费版首页|姐姐用脚给你设片|女人与拘做受XXXXⅩ视频|邪恶天堂⭐️邪恶道全彩
06月01日,两会受权发布|中华人民共和国国务院组织法,XXX✘18🍆🍆🍍HDF,国产精品18🈲️高潮软件免费,二次元被❌到爽羞羞视频,嗯∽啊~轻点禁🔞视频下载
06月01日,《繁花》要维权,宝总泡饭还能不能卖?,国产AV无码区亚洲AV欧美漫画,男人添女人荫蒂视频观看,蝴蝶忍被强❌自慰爽漫画,美女拉粑粑
06月01日,特稿|推动中法全面战略伙伴关系迈上新台阶——法国各界期待习近平主席对法进行国事访问,欧美片巜蜜桃臀熟3,七十老太亂伦在线观看,美杜莎被狂揉❌禁欲视频,米塔资源库
06月01日|中欧班列(成渝)已连续3年开行超5000列|小樱吃鸣人的大钢筋|淫纹贴骚私处漫画|香蕉🍌🍌🍑🍑入口|啊别揉了我快尿喷了纲手
06月01日|“逆向考研”是理性还是妥协|3D蒂法被❌酒馆AV免费观看|撅屁股+挨揍+虐臀+调教|Gay Porn, Free Gay Porn Videos|啊〜用力〜嗯〜轻一点快穿
06月01日|习近平将出席法国总统马克龙举行的欢迎仪式|13分钟阿娇被躁5分钟视频|星野光头|麻花豆传媒一二三产区|大尺度做爰吃奶野战
海豚小宝宝在海面的跳跃,哈哈哈哈哈 第四季|跟着总书记探寻中华文明|汉风汉韵 源远流长|我家弟很棒第一集免费观看全集|雏田爆乳被❌🔞漫画|脱👙让学生C🐻文|LOL两个狐狸接吻,两边同伴看傻了
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺