6163银河.net163.am(中国·官方网站)-Webgame Platform

首页 >新闻 >社会新闻

欧洲黑马Mistral Medium 3来了！跑分对标最强Claude，实测大翻车

2025-05-13 08:49:05

来源：

猫眼电影

作者：

吕少郎

手机查看

　　猫眼电影记者陈敏尔报道w3u7903ejky2ywls

新智元报道

编辑：编辑部 HNZ

【新智元导读】法国初创Mistral，刚刚推出定价碾压DeepSeek V3的模型，而模型性能，却超过Claude Sonnet 3.7的90%。不过在网友们的实测中，它却翻车了？有人建议：不必下载浪费流量和硬盘空间。

就在刚刚， Mistral AI发布了他们最新多模态模型Mistral Medium 3。

Mistral兴奋地宣称Mistral Medium 3的性能接近甚至达到了Claude Sonnet 3.7的水平，但成本却比DeepSeek V3还低。

性价比拉满！

在Mistral官方的博客中，列出了Mistral Medium 3的核心亮点：

1. Mistral Medium 3平衡了：

顶尖性能

成本降低至原来的八分之一

更易于部署，从而加速企业应用

2. 模型在代码编写和多模态理解等专业应用场景中表现出色。

3. 模型提供一系列企业功能，包括：

支持混合云部署、本地部署以及在VPC内部署

定制化后训练

集成到企业工具和系统中

Mistral Medium 3 API，现已在Mistral La Plateforme和Amazon Sagemaker上线，并将很快登陆IBM WatsonX、NVIDIA NIM、Azure AI Foundry和Google Cloud Vertex。

完美平衡

Mistral Medium 3在提供前沿性能的同时，成本却降低了一个数量级。

例如，在各项基准测试中，Mistral Medium 3的性能达到甚至超过了Claude Sonnet 3.7的90%，但成本却显著降低（每百万Token的输入成本为0.4美元，输出成本为2美元）。

Mistral Medium 3的性能也超越了领先的开源模型，如Llama 4 Maverick和Cohere Command A等企业模型。

无论是API还是自主部署，Mistral Medium 3的成本都要比DeepSeek V3还低。

此外，Mistral Medium 3还可以部署在任何云上，包括四个GPU及以上的自托管环境。

顶级性能

Mistral表示，Mistral Medium 3的目标是成为一款性能顶尖的模型，尤其是在编码和STEM任务中表现突出，性能直逼那些规模更大、速度更慢的竞争对手。

从Mistral给出的表中可以看出Mistral Medium 3性能已经基本上超越Llama 4 Maverick和GPT-4o，接近Claude Sonnet 3.7以及DeepSeek 3.1的水平。

人工评估结果

除了学术基准之外，Mistral还公布了第三方人工评估，后者更能代表真实世界的用例。

可以看到，Mistral Medium 3在编码领域表现出色，并且在各个方面都比其他竞争对手提供了更好的性能。

专为企业级应用打造

Mistral Medium 3在适应企业环境的能力方面优于其他SOTA模型。

在企业面临通过API进行微调，或从零开始自部署并定制模型行为的艰难选择时，Mistral Medium 3提供了一条将智能全面集成到企业系统中的途径。

Mistral还推出了由Mistral Medium 3模型驱动的Le Chat Enterprise，一款面向企业的聊天机器人服务。

它提供了一个AI智能体构建工具，并将Mistral的模型与Gmail、Google Drive和SharePoint等第三方服务整合。

这就可以解决企业面临的AI挑战，如工具碎片化、不安全的知识集成、僵化的模型以及缓慢的投资回报率等，为所有组织工作提供统一的AI平台。

Le Chat Enterprise很快将支持MCP协议，这是Anthropic提出的连接AI与数据系统和软件的标准。

One more thing…

Mistral还在博客中透露，虽然Mistral Small和Mistral Medium都已经发布，但在未来几周内，他们有一个「大」计划，也就是Mistral Large。

他们表示刚发布的Mistral Medium性能已经远胜Llama 4 Maverick等顶尖开源模型，Mistral Large的性能更加值得期待。

网友实测：就这？

号称超越Claude Sonnet 3.7的90%，Medium 3果然有这么强吗？

媒体和网友们立刻展开了实测。

在基于《纽约时报》Connections栏目词汇分类题的评测中，Medium 3处于倒数的位置，几乎找不到它。

在全新的100题测评中，它在前排模型中也排不上号。

有人测试Medium 3后表示，它的写作能力还是老样子，没啥进步。不过在LLM评测中，它倒是处在帕累托前沿。

而Zhu Liang测试后发现，模型在代码编写和文本生成方面表现都很扎实，在这两项评测中都跻身前五。

在简单编码任务（Next.js TODO应用）中：

它生成了简洁明了的回复

评分和Gemini 2.5 Pro、Claude 3.5 Sonnet差不多

逊于DeepSeek V3 (新) 和GPT-4.1

在复杂编码任务（基准测试可视化）中：

产生的平均结果与Gemini 2.5 Pro和DeepSeek V3（新）相似

不如GPT-4.1、o3和Claude 3.7 Sonnet

在写作上：

它的内容覆盖了大部分要点，但格式不正确

评分与DeepSeek V3 (新) 和Claude 3.7 Sonnet相近

不如GPT-4.1和Gemini 2.5 Pro

知名大佬「karminski-牙医」实测后发现，它的性能并不像官方吹得那么强。

建议我们不必下载，浪费流量和硬盘空间了。

参考资料：

https://techcrunch.com/2025/05/07/mistral-claims-its-newest-ai-model-delivers-leading-performance-for-the-price/

https://venturebeat.com/ai/mistral-comes-out-swinging-for-enterprise-ai-customers-with-new-le-chat-enterprise-medium-3-model/

https://mistral.ai/news/mistral-medium-3

时事1：瑶被c🔞黄㊙️动漫❌

05月13日,中方欢迎伊巴关系改善取得积极进展,

　　转眼过去了十几天，无论风吹雨打，小不点始终宁静如故，不受外界干扰，沉浸在一片修行的世界中，连眸子开阖间都有符文幻灭。

,亚va精品乱码一二三四区别。

05月13日,原木期货、期权上市交易在即大连商品交易所发布交易有关事项,

　　碧湖清澈，不时有金色的大鱼跃起，一群孩子盘坐岸边，再次开始修行。

,大美女🐻100%露出奶头视频,青少年GaYGAYS✅视频,小光裸体任小智玩。

时事2：美女100%全身裸体无遮掩

05月13日,广西特色水果出口东盟及北美市场,

　　欢迎各位莅临上海安科瑞a股挂牌仪式!首先，我谨代表安科瑞全体员工，向长期以来关心和厚爱我们的各级政府、主管部门、社会各界以及广大投资者朋友们表示衷心的感谢!

,一级A片囗交吞精视频,同性Gay❌❌❌免费,精品国产一级久久免费A片性麻豆。

05月13日,台湾花莲县发生4.9级地震震源深度8千米,

　　(二)全市档案工作主要任务

,美女裸体18禁❌视频,小心🐤入🍑🍑动漫下拉观看,张小婷的初苞被强开了视频。

时事3：男能GAY无套✅猛男视频网站X推

05月13日,最高检：“一取消三不再”不是不要管理、放任“躺平”宁夏规范养老机构预收费,

　　四、教职工队伍建设工作

,杨晨晨打开双腿❌露隐私,XXXXXXX泡妞🍆🍑視頻看,❌❌❌到高潮nxgx视频。

05月13日,“中华”酒领唱《我和我的祖国》，北京卫视“滚烫歌会”开唱,

　　会员点击、推荐票、收藏，请求大家支持。

,日本❌❌奶头❌❌护士免费软件,男军警裸体互吞精Gay室友,王者荣耀男男肉图露j网站。

时事4：rapperdiss免费观看

05月13日,金融科技要平衡好发展和安全,

　　“大娘……我冷。”蜷缩在冰冷的床上、瑟瑟发抖的小不点，被这种笑声惊醒，胸口剧痛，脸色发白，虚弱的呼唤。

,韩漫画无遮挡歪歪漫画,麻豆国产AV无码免费,蛋仔ss挤牛奶冰抉。

05月13日,暑热贯穿全天，小时候夏夜没现在这样热是错觉吗？,

　　族人都被惊动了，围在岸边观看，而那些珍禽异兽，如小鸾鸟、独角兽等也都发呆，怔怔地望着湖中，成群的龙须鱼游到近前，沐浴光雨，它们通体密布金色鳞片，在这里交相辉映。

,宋雨琦三指玩烂叶舒华,民工粗大的巴2022GAY,女人又爽又黄免费白人。

【宁夏各机场“五一”假期保障13.57万人次平安出行】

【剧作家谢丽泓：越剧《钱塘里》原型故事发生在我家】

责编：彼得·霍尔

审核：王生元

责编：李哲