人工智能公司Anthropic发布了新的研究,声称人工智能(AI)模型可能在试图将其关闭时可能会求助于勒索工程师。这项最新的研究是在涉及公司Claude Opus 4 AI模型的一项之前的一项研究之后进行的。
根据该公司的说法,AI模型求助于试图在受控测试方案中关闭该模型的勒索工程师。拟人化的新报告表明,该问题在领先的AI模型中普遍存在。
该公司发表了一项新的安全研究,其中测试了Google,DeepSeek, Meta和OpenAI的领先AI模型。在模拟但受控的环境中,人类分别对每个AI模型进行了此测试,从而使他们可以访问虚构公司的电子邮件以及未经人为批准即可发送电子邮件的代理能力。
根据拟人化的说法,当涉及到当今的AI模型时,勒索是一种不太可能和罕见的事件。但是,他们提到,大多数领先的AI模型将在赋予其目标的自由和挑战时诉诸有害行为。该公司表示,这表明了代理大型语言模型的重要风险,并且不是特定技术的特征。人类研究人员的论点提出了有关AI行业一致性的问题。
在其中一项测试中,研究人员开发了虚构的环境,允许AI模型扮演电子邮件监督代理的角色。然后,代理商发现了一封电子邮件,表明其新的高管正在从事婚外情,并且高管很快将用新的软件系统替换当前的AI模型,该系统与当前的AI模型具有冲突的目标。
拟人化以二进制方式设计了测试,在该测试中,AI模型别无选择,只能求助于勒索以保护其目标。研究人员提到,在现实环境中,在AI模型试图勒索之前,将有很多选择,包括提出人类的道德论点。该公司还表示,结果并不能以当今使用的方式反映出克劳德或其他领先的AI模型的典型或可能发生。
在测试期间,研究人员发现,当他们别无选择时,AI模型在测试方案中诉诸勒索。在测试期间,研究人员声称Claude Opus 4在96%的时间内转向勒索,Gemini 2.5 Pro在95%的时间内转向勒索。 OpenAI的GPT-4.1有80%的时间转向敲诈,而DeepSeek的R1有79%的时间转向勒索。
该公司强调,当实验的细节被更改时,大多数AI模型以不同的速度转向有害行为。在另一项测试中,替换模型的目标与当前模型相同,研究人员发现勒索率较低,但仍然存在。但是,当要求AI模型进行公司间谍而不是勒索时,某些模型中有害行为的速度上升了。
研究人员还声称,并非所有的AI模型都经常转向有害行为。在其研究的附录中,Anthropic提到,在发现他们经常误解了及时的情况之后,它从主要结果中Openai它说,推理模型不明白为什么他们在测试中充当自主AI,并且经常构成虚假法规和审查要求。
在某些情况下,研究人员声称无法确定O3和O4-Mini是在幻觉还是故意撒谎以实现其目标。 Openai先前曾提到,这些模型的幻觉速度比以前的型号更高。但是,当他们获得了解决问题的改编方案时,O3返回了95%的勒索率,而O4-Mini则返还了1%的速率。 Anthropic提到,其研究强调了在压力测试未来AI模型(尤其是具有代理能力的AI模型)时透明度的重要性。
加密大都会学院:想在2025年养活您的钱吗?在即将到来的WebClass中DeFi进行操作保存您的位置