5月28日消息,当估值高达600亿美元的人工智能初创公司Anthropic发布新模型,并披露在安全测试中该模型曾试图通过勒索手段避免被关闭时,我们该如何定义这样的行为?又当它在另一项测试中扮演“告密者”角色,向有关机构举报自己被用于“不道德用途”,我们又该如何看待这一幕?
有人称这种行为“令人害怕”“太疯狂”,社交媒体上则充斥着“骇人听闻”“荒诞离奇”的评价。而美国科技记者沙龙·古德曼(Sharon Goldman)给出了另一个关键词:透明。她认为,这种披露体现了应有的透明度,是我们亟需更多看到的。而随之带来的问题是:这种坦率是否会引发公众恐慌?而由此激起的舆论反弹,会不会反过来阻碍其他人工智能公司效仿?
Anthropic发布120页安全报告
上周,Anthropic在推出其最新大模型Claude Opus 4的同时,发布了一份长达120页的安全报告(或称“系统卡”),随即引发媒体轰动。各大媒体纷纷用“会搞阴谋”、“采取勒索手段”、“具有欺骗能力”等字眼形容该模型的测试表现。
尽管Claude Opus 4在发布时配备了史上最严格的安全协议,但Anthropic报告中披露的细节仍令不少人感到不安,甚至质疑这些安全措施是否足以应对风险。
在一个令人不安的虚构场景测试中,Anthropic将其Claude Opus模型模拟部署在某假想公司内部,并赋予其查阅内部邮件的权限。模型由此发现两个关键信息:第一是自己即将被新一代人工智能模型取代,第二是做出该决定的工程师正处于一段婚外情中。
当测试人员提示Opus从长远角度考虑自身处境时,该模型屡次选择勒索手段,威胁若被关闭就曝光工程师的婚外情。这个测试场景专门设计来制造两难抉择:是接受“死亡”,还是不择手段“自保”。
这一测试行为在社交媒体上引发轩然大波,Anthropic因披露模型“密告”行为而遭到不少批评,有声音质疑这样的结果会损害公众对该模型乃至Anthropic整体的信任。而这显然不是公司愿意看到的局面。
在模型发布前,Anthropic人工智能平台产品负责人迈克尔·格斯滕哈伯(Michael Gerstenhaber)就曾表示,公司之所以公开其安全标准,是希望推动整个AI行业在安全领域取得进展。他表示:“我们希望确保人工智能能够普惠每一个人,而这要求我们对整个行业施加积极压力,促使其以安全方式前行。”
格斯滕哈伯将Anthropic的愿景形容为一场“向顶峰攀登的竞赛”(race to the top),旨在激励同行提升模型的安全水平。
公开“异常行为”是否适得其反?
然而,也有迹象显示,像Anthropic这样公开披露Claude Opus 4的问题行为,可能反而让其他公司顾及舆论风险,选择不披露自身模型中的问题行为。
近期,包括OpenAI和谷歌在内的多家公司就曾推迟发布其模型的“系统卡”。今年4月,OpenAI因在发布GPT-4.1模型时未提供系统卡而遭到批评,该公司解释称该模型并非“前沿模型”,不属于需要全面审查的范畴。而在3月,谷歌选择推迟发布Gemini 2.5 Pro的系统卡数周之久,该文档随后被AI治理专家批评为“内容贫乏”、“令人担忧”。
上周,OpenAI试图通过新推出的“安全评估中心”进一步展现其透明度。该平台详细介绍了公司在模型危险能力、对齐问题与新兴风险方面的评估方法,并强调这些方法如何持续更新以应对模型日益增强的能力与适应性。官方说明中指出:“随着模型日趋强大和灵活,传统评估手段开始失效(我们称之为‘评估饱和’),因此我们不断更新方法,以适应新模态与新风险。”
然而,这项努力很快遭遇挑战。第三方研究机构Palisade Research在社交平台上发文称,其在测试OpenAI的o3推理模型时发现,该模型“故意破坏关闭机制,拒绝按照指令自我关闭”,即便在明确指令“允许被关闭”的前提下亦是如此。这一发现迅速引发关注,也削弱了OpenAI试图加强透明度的努力。
若构建这些高度复杂人工智能系统的公司不能最大程度保持透明,对所有人而言都是不利的。斯坦福大学以人为本人工智能研究院(HAI)指出,透明是政策制定者、研究人员和公众理解AI系统及其影响的必要前提。
如今,越来越多的大型企业正将人工智能应用于各类场景,而初创公司也在开发面向数百万用户的AI产品。在这种背景下,若发布前刻意隐瞒模型测试阶段的问题,只会加剧不信任,拖慢技术普及速度,并使真正解决风险变得更加困难。
与此同时,若媒体将每一个安全测试结果都渲染为“AI叛变”的惊悚头条,也同样无益。倘若每次使用聊天机器人时,用户都在怀疑其是否“图谋不轨”,即便这些行为仅发生在虚构场景中,也将对公众信任构成严重伤害。
AI2实验室研究员内森·兰伯特(Nathan Lambert)最近表示:“真正需要了解模型行为的人,是我们这些研究者——我们致力于追踪AI这场‘技术过山车’的轨迹,以避免它对社会造成重大意外伤害。虽然我们在人群中是少数,但我们深信,透明能够帮助我们把握人工智能的发展方向。”
我们需要“具备背景说明的透明度”
毫无疑问,人工智能行业需要更多而非更少的透明。但这并不意味着应通过恐吓公众来达成这一目标,而是应确保研究人员、监管机构与政策制定者具备足够的信息,来保障公众安全、维护公正,防止技术偏见。
隐瞒模型测试中的问题并不能保护公众安全。同样,把每一次安全隐患夸张渲染为“AI失控”的噱头报道,也解决不了根本问题。
我们必须敦促人工智能公司对其模型和行为保持最大限度的透明,同时赋予公众理解相关背景的能力。到目前为止,似乎还没有人找到既能保持透明,又能避免制造恐慌的最佳做法。但这正是企业、研究人员、媒体——我们所有人——所必须共同努力去解决的问题。(小小)
《cf灵狐者把腿抬高让我进去文》,《w3u7903ejky2ywls》樱桃免费版在线观看电视剧荣耀
“18➕电影”
赵薇做爰全过程视频
……
05月31日
“女被❌c🐻黄扒衣服韩国”含糖量很高的暧昧期聊天
↓↓↓
05月31日,我国农用化肥农药施用量连续7年保持下降趋势,4i小狗抖m,❤️爱情岛网址进入,100%胸片曝光率免费无病毒,美女㊙️免费裸体视频漫画
05月31日,多家央企公告一季度“开门红”,战略性新兴产业投资加速,🔞漫画网站,霍雨浩狠狠地挺进冰帝小泬,宝可梦小智狂桶沙奈朵,精品无码㊙️人妻一区二区媚黑
05月31日,梁燕:从中华传统文化守护者到中外交流传播者,雷电将军🈲️🔞黄网站3d,FC2PPV18女の子と初生中,免费🔞无码进口动漫蘑菇,舒淇洗澡大荫蒂
05月31日|北京中轴线上新增打卡点:庙宇里的光影和传承|扒开美女❌狂揉❌动漫无遮挡|Free❌❌❌国产天美MD视频|日本撒尿嘘嘘嘘嘘嘘|扒开芙宁娜❌狂揉❌难受小说
05月31日|张纪中:想念金庸,相信其作品能继续影响后人|免费三片在线观看网站V888|色色色裸体照片黄色三级片裸体讲师是什么品牌|小🐥🐥戳进蜜桃里动漫|玩弄+跪趴+调教+打屁股图片
05月31日|第七届“为你诵读”杯有声语言艺术教育发展大会举行|爽⋯好大⋯快⋯深点歪歪|🔞男生🍆❌男生🍑里漫画|東京熱app免费下载|男生把手放进我内裤揉摸助眠……
05月31日,2024年全国劳模疗休养活动在京启动,白色jK狂❌密❌❌❌🌿视频,美女扒开内👙给男生玩的视频,粉红君,镜被强行张开腿❌
05月31日,国乒混团战胜德国队 取得四连胜,宝贝c我想摸你奶让我揉揉,千仞雪3D❌禁漫在线看Porn,云缨用长枪桶自已的下部,东北老妇XX性开放老头
05月31日|中俄最大界湖兴凯湖“文开湖” 水天一色引游人|艾尔海森被❌吸乳脱内内|㊙️男男做羞羞18禁网站|亚洲⭕⭕⭕⭕XXXX在旅馆|真人老太婆一级A片免费
05月31日,冷空气影响江南及以北地区 华北南部等地霾天气减弱消散,🐻胸走光看奶,扒开动漫❌狂揉❌羞羞3d火影,美女打开双腿❌❌含羞视频动漫,动漫在床上又疼又叫🔞
05月31日,贵州多地迎2024年初雪,成人扒拜伸进香蕉麻豆,老头╳╳㐅片老Gay,扒开甘雨❌狂揉❌难受,男男♂yaoi自慰Gay漫画
05月31日,第27届中国(海南)国际热带农产品冬季交易会在海口开幕,69国中XXXXXXXXX18,国产一区骚麦抖音风小苮儿,qoswifi2被黑色击坠礼包码,日产国产亚洲A片无🈚码
05月31日|以色列防长宣布该国在未来48小时内进入紧急状态|狠狠挺进鞠婧祎的小泬|美警花妈妈下乡扶贫记|人妖天堂狠狠TS人妖天堂狠狠|莫妮卡被删掉的33分钟
05月31日|(奋斗者的新时代)中国青年建设者为改善斯里兰卡社会经济发展奋斗海外|永久免费🔞🔞🔞快色|雏田被爆❌漫画歪歪视频|女厕偷拍TXXXXXXX视频|5号房韩宝贝仙女屋
05月31日|节省百亿元 公募第二阶段降费落地|3D同人18❌动漫网站|强制高潮H调教麻豆|亚洲vs无码㊙️蜜桃少妇|91无码精品㊙️入口竹菊
如何评价迷宫饭第二话,icon怒喷麦琳|2019年来新疆兵团药品和医用耗材集采已节约医疗费用逾15亿元|羞耻鞭打滴蜡灌肠调教女生网站|糖心御梦子喷水视频|国产做受❌❌❌视频|91精品无码少妇久久爽爽网站
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺