6163银河.net163.am(中国·官方网站)-Webgame Platform
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

谷歌开源大模型评测工具LMEval,打通谷歌、OpenAI、Anthropic

2025-06-03 18:01:14
来源:

猫眼电影

作者:

李嘉欣

手机查看

  猫眼电影记者 西普里安·恩塔里亚米拉 报道w3u7903ejky2ywls

智东西编译 金碧辉编辑 程茜

智东西5月28日消息,据科技媒体The Decoder 5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型进行多模态能力标准化评估。

LMEval基于LiteLLM框架(能让开发者通过统一API便捷调用GPT、Claude、Llama等上百款大模型,并支持流式响应、批量推理及成本监控等功能的开源框架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大厂商API接口,首次实现文本、图像、代码三类任务的一站式评测,并通过增量评估技术减少80%重复测试算力消耗。

LMEval的源代码和示例笔记本已经在GitHub上公开,供广大开发者使用和研究。

地址:https://github.com/google/lmeval

一、跨平台互通,采用增量评估+多线程并行计算技术,测试效率提升5倍

LMEval基于LiteLLM框架,将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口标准化,开发者无需针对不同平台重写测试代码。

同时,科技媒体The Decoder援引谷歌官方说道,LMEval系统采用增量评估技术,配合多线程并行计算,能节省80%算力,原本8小时的测试流程可压缩至1.5小时。

在评估场景层面,LMEval突破了单一文本问答的局限,将图像理解、代码生成等场景纳入评测范畴,满足多领域对大模型能力评测的需求。

在题型方面,LMEval提供了是非判断、多选问答、开放式生成等多达12种题型,为全面评估模型在不同任务形式下的表现创造了条件。同时,LMEval模块化设计允许开发者依据自身研究或业务需求,灵活添加新的评估维度,增强了框架的扩展性与适应性。

在安全评估层面,LMEval新增的规避性回答检测功能能够识别模型在面对敏感问题时所采取的推诿策略,这对于评估模型在处理敏感信息时的可靠性意义重大。

▲Giskard的安全评分显示了不同的AI模型如何有效地规避潜在的有害内容。百分比越高,安全性就越高。(图源:谷歌)

在数据存储与隐私保护层面,LMEval将测试数据存储于自加密的SQLite数据库中,本地访问需密钥验证,有效阻断搜索引擎抓取,在数据使用过程中全方位保障数据安全与隐私。

二、评测成本直降90%,月之暗面已部署

据The Decoder报道,LMEval采用增量评估技术后,企业新增测试场景的运维成本降低90%。国内大模型创业公司月之暗面技术负责人王海明、刘征瀛在今年5月26日谷歌LMEval框架发布后的媒体沟通会上透露,该工具已应用于其内部流程优化,在未使用LMEval前,月之暗面针对新模型或新场景的评测往往需要数周时间来搭建测试环境、设计评测流程以及执行测试。

而引入LMEval后,原本复杂冗长的流程得以简化,现在仅需几天就能完成一轮全面评测,研发周期大幅缩短超两周。

LMEval配套的LMEvalboard可视化工具支持生成雷达图,能直观对比不同模型在各项能力上的表现短板。

开发者点击图表即可查看具体错误案例,还能并排对比不同模型对同一问题的响应差异,助力精准定位模型性能优劣,为模型的优化与改进提供有力依据

结语:谷歌开源LMEval框架,打通五大厂商API接口

谷歌开放的开源框架LMEval基于LiteLLM框架,打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,让开发者能在统一环境下评测不同来源模型。通过模块化设计,它可同时满足文本、图像、代码等多模态评估需求,提供12种题型,还能灵活添加新评估维度。而增量评估技术配合多线程并行计算,节省80%算力,使企业新增测试场景的运维成本降低90%,显著提升测试效率、降低测试成本。

谷歌推出的LMeval框架通过标准化和灵活性的结合,为研究人员和开发者提供了便利。在未来,随着AI技术的不断演进,LMeval框架或有可能成为行业内评测工作的标准,助力推动AI模型的持续发展与优化。

来源:The Decoder

 时事1:欧–美–性–交–黄–片

  06月03日,《黑神话:悟空》里的法宝现身上海闵行博物馆,

  青鳞鹰一直在蔑视地追杀这些孩子,而此刻眸光却是第一次露出一缕惊异,迅速摆头,不敢令铁矛刺中眼睛。

,女无套自慰✅免费网站他趣情。

  06月03日,两岸外贸和物流专家厦门共探经贸合作新机遇,

金条作为一种有价值的贵属,广泛用于投资和储备。然而,有时候人们可能遇到金条逾期的情况,即未能按时偿还金条的借款。那金条逾期三个月会怎么样呢?本文将围绕这问题展开讨论。 一、金条逾期三个月会怎么样 1.产生逾期利息:金条逾期三个月会产生逾期利息,逾期利息的利率为正常贷款利率的1.5倍。...

,我的🍌伸进女同学🍑,打屁股教训男男spank视频,偷拍搓澡工给客人打飞。

 时事2:www.猎奇另类.com

  06月03日,跟着“悟空”游山西!山西文旅官员谈国产游戏带火取景地,

  “敌袭,准备战斗!”尖锐的啸声响起,山寨大乱,所有凶寇都站了起来。

,3D 同人 动漫 触手 无尽,我用蹭同桌的,柳岩被❌的冒白浆。

  06月03日,未来三天广东南部仍有较强降雨 有暴雨灾害中高风险,

  此次讲座彭警官抓住小学生的特点,从火灾发生后报警的注意事项,如何从火场逃生,如何防火,灭火器的使用方法等几个方面对学生进行了培训。最后还进行了消防知识的有奖竞猜,同学们积极参与,气氛热烈。 短短近一个小时的讲座,内容丰富、生动翔实,受到了全体学生的一致好评。

,火影忍者美女被强❌图,草莓视频性♥爱在线观看,小仙女自慰www蹭蹭蹭av。

 时事3:海角乱怆破解

  06月03日,国家医保局出台长期护理保险失能等级评估机构定点管理办法,

  尊敬的宗总经理、潘先生、柏处长、王行长,尊敬的刘市长,尊敬的各位领导、各位来宾,同志们、朋友们:

,程潇也太敢穿了,禁漫天堂❤A漫同人,女搡多毛╳╳╳乂乂H视频。

  06月03日,收获大批年轻顾客 “最听劝老板”靠刷评论区救活伞厂,

  一个壮汉道:“一码归一码,既然没事,就得好好算一算账。毛还没长齐呢,就敢去惹魔禽,不把你们的屁股拍烂,就不算是你们的老子!”

,男男互c开荤粗肉尿在里面视频,18🈲️又黄又嫩又长,学生性做爰电影。

 时事4:蒂法被❌

  06月03日,港澳人士游南沙系列活动邀澳门学生深度体验南沙,

  玉羊辞岁,金猴报春。值此20xx年新春佳节即将来临之际,我谨代表六安农商银行党委、行领导班子,向一直以来关心、帮助、支持我行改革发展的各级领导、广大股东、客户和社会各界朋友表示衷心的感谢,向全行全体员工致以节日的问候!

,荒野乱斗科莱特自慰喷水,纲手❌自慰爽naruto,男人撕开奶罩揉吮奶头gif。

  06月03日,十四届全国人大二次会议表决通过了关于政府工作报告的决议,

  “嫂子,你的心到底是红的还是黑的?”石子陵咬牙,而后大声喝道:“当真是狼心狗肺!”

,斗罗之乱婬h侵犯朱竹清,白敬亭下面凸起好大,偷拍撒尿㊙️Findsex网站。

【中方:科索沃地区各民族的安全和合法权益均应得到保障】

【上海:多方携手探索中医药领域产教融合新模式、新路径】

责编:孟庆云

审核:李富林

责编:丁志兵

相关推荐 换一换