6163银河.net163.am(中国·官方网站)-Webgame Platform
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型

2025-06-02 04:45:29
来源:

猫眼电影

作者:

马杜罗

手机查看

  猫眼电影记者 许丛峰 报道w3u7903ejky2ywls

在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强化、幻觉改善和创意写作更好等。

在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。

值得一提的是,DeepSeek提到,新版DeepSeek R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。

所谓幻觉即大模型的“胡说八道”,此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。

据SuperCLUE,推理模型的幻觉比非推理模型更显著,在他们的测评中推理模型的平均幻觉率为22.95%,非推理模型的平均幻觉率为13.52%。

除了幻觉方面的改善,官方介绍,新R1模型在复杂推理任务中的表现有了显著提升。例如在 AIME 2025 测试(一个数学基准测试,用于模型在数学推理方面的能力)中,新版模型准确率由旧版的70%提升至87.5%。

此外,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

在官方发文之前,众多测试表明R1新模型的代码能力有显著提升,在代码测试平台Live CodeBench中,其性能几乎媲美OpenAI重量级的o3-high模型。官方此次公告也提到,在前端代码生成、角色扮演等领域,模型的能力确实均有更新和提升。

在迭代路径上,DeepSeek表示,DeepSeek-R1-0528 仍然使用 2024 年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。

本次R1新模型参数为 685B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。同时,与旧版本的R1保持一致,此次开源模型权重仍然统一采用 MIT License,允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

有趣的是,在X平台DeepSeek的官方评论区中,讨论的话题全都关于R2模型,“We want R2(我们想要R2模型)”,有用户评论称。业界对DeepSeek下一代的模型期待已久。

基于DeepSeek刚刚发布了更新,有用户猜测,“是否意味着我们暂时不会听到有关R2的消息?”也有用户调侃称,这一模型或许在开发中应该是R2,但是当他们发现在基准测试中没有超越OpenAI的o3 时,DeepSeek将其重新命名为R1的更新。

一向低调的DeepSeek并未对外界的猜测进行任何回应,基于R1是在V3模型的基础上训练的,或许我们会先等到V4模型的更新。无论如何,海内外大模型领域的基座模型大战还在继续,DeepSeek之后,谁会是下一家?

 时事1:美女光溜溜图片视频素材

  06月02日,美对东南亚四国反倾销措施或影响我国光伏企业 商务部回应,

  事实上,穿山甲应该比它表现出来的战斗力更强,只是它为了温养与复活金色的骨剪而重创了己身,导致它败亡。

,嫖老阿婆视频大全。

  06月02日,“熊猫叨叨·我与中国的故事”高校国际学生中文演讲大赛决赛在沪落幕,

  地动山摇,山林深处像是发生了大地震般,乱石穿空,群山都在抖动,景象非常恐怖。

,JavapHD学生,男男GAYGAY✅✅亚洲打桩机,国产精品㊙️老头。

 时事2:男男伦流澡∽tm别舔了

  06月02日,山西平顺县山火火势已初步得到控制 当地派出直升机协助救援,

  3、 体育经济,消费新动力

,jK黑色丝袜美女被❌视频网站,医生从奶罩摸进去了H,小母狗水好多主人。

  06月02日,黄埔一期曹渊孙女:祖父牺牲后周恩来叶挺照顾遗孤,

  不过,很快地,我们也开始种树苗了,张天未去领来一颗小桃树苗,递给我,我把小树苗放进挖好的坑里。他们一边填土,我一边把树苗往上提。不一会儿,我们的树苗就栽好了。但是,这可还没结束哦,我们还得把埋树苗的土踩成凹进去的样子,再踩平之后把小树浇上水,才算大功告成呢。于是,我们便抬起脚狂踩,不一会儿,土就踩平了,可我们的鞋子上都糊满了泥。最后,焦云帆和张天未去提了两桶水回来,给小树浇上,我们才拍拍手,终于舒了一口气。

,极品白丝浴室自慰喷水流白浆,妺妺用🐻夹我的🍌网站,把的🍌伸到🍑里涩涩。

 时事3:FerrPorno馃拫馃憴6

  06月02日,“老外中医”迪亚拉:中医药在非洲知晓率不断提高,

  你与我们有个约定,说你一定要赢,也一定会赢枪声响了,八百米,几秒, 却又像几个世纪!迈开大步,跨过世纪!

,女澡堂洗澡㊙️网站,为什么坐飞机✈️不能带水果,美女裸奔❌❌免费视频。

  06月02日,枪支暴力加剧!3D打印让美国非法枪支暴涨570%,

  “嗯,这段时间抓紧学习。然后我提前以狻猊宝体、赤红宝角、恶魔猿手臂的真血为你洗礼,不然那种东西放久了,真血神性会减少的,不等到你五岁了,希望你到时能坚持住!”

第二十二章 敌,星野大战光头哥免费播放,韩剧《医生》免费观看,白袜体育生把jj插入男人屁股中的免费的视频。

 时事4:露娜被❌娇喘流白色液体

  06月02日,中国渤海首个千亿方大气田累计产天然气突破10亿立方米,

  “真是马屁精,不就是小不点教你骨文了吗?!”一群孩子愤愤撇嘴。

,暴躁妹妹csgo直播,欧美一级婬片A片久久精品水中花,情侣之夜动漫第1季在哪看。

  06月02日,中国正能量|三代林场人的精神史诗,

  下面请允许我从以下几个方面来给大家汇报,系学生会自成立以来的:

,少女戴口球反绑手脚的视频,国外岁拗女稀缺资源AAA,澡池里被强摁开双腿呻吟。

责编:黄忠

审核:王家卫

责编:毛阿敏

相关推荐 换一换