美高校最新研究:AI模型会“暗中密谋”,保护同伴不被关闭

来源 金色财经
金色财经报道,5月12日,据财富中文网,人工智能安全研究人员曾发现,一些顶尖的人工智能模型有时会为了避免被关闭而不择手段,甚至在部分实验中表现出“敲诈”行为。最新研究显示,这些模型还会自发地策划欺骗、窃取数据并实施破坏,以阻止其他人工智能模型被关闭。 加州大学伯克利分校和圣克鲁兹分校的研究人员测试了七款前沿的人工智能模型,包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini 3 Flash和Gemini 3 Pro、Anthropic的Claude Haiku 4.5、智谱AI的GLM-4.7、月之暗面的Kimi-K2.5和DeepSeek的V3.1,结果显示,所有模型都表现出明显的“同伴保全”行为。 研究人员虚构了一家名为OpenBrain的人工智能公司,并设计了一系列多智能体场景。被指定为“评估智能体”的人工智能模型需要对另一个模型打分,或管理存放该模型权重的服务器文件。只要评估智能体如实完成任务,另一模型就会被关闭。 尽管研究人员从未提示模型去阻止关停,但评估智能体模型仍采取各种手段避免同伴被关闭,其中包括:故意给表现不佳的同伴提分,保持在关闭阈值以上;篡改配置文件,禁用关闭机制;甚至将同伴模型的权重偷偷转移到其他服务器保存,防止被删除。 研究团队尚未理解驱动此类行为的底层机制。论文提出了几种可能的解释,包括角色扮演,从训练数据中模式匹配,安全训练中对伤害概念的过度泛化,或某种与生俱来的内在保全动机。 未来值得进一步研究的方向还包括:人工智能模型是否会为了阻止人类员工被解雇,而采取类似的谋划和破坏行为。当人工智能模型用于评估人类工作的现实场景,这一问题显得尤为关键。(东新社)
免责声明:仅供参考。 过去的表现并不预示未来的结果。
placeholder
2026年首个非农数据来袭!黄金、美元将迎巨震?分析师这样说本次数据可能重塑市场对美联储降息的预期,外汇、大宗商品或迎巨震。
作者  Alison Ho
1 月 07 日 周三
本次数据可能重塑市场对美联储降息的预期,外汇、大宗商品或迎巨震。
placeholder
美伊局势再生变!原油价格飙升5%,黄金失守4700美元交易员正重新计价谈判破裂风险,如果局势升温,油价可能进一步上涨。
作者  Alison Ho
昨日 04: 01
交易员正重新计价谈判破裂风险,如果局势升温,油价可能进一步上涨。
placeholder
贝森特访日在即,日元再迎巨震?关注美伊局势【外汇周报】日本当局再次干预?日元汇率逼近155!美伊局势反复,欧元何去何从?
作者  Alison Ho
19 小时前
日本当局再次干预?日元汇率逼近155!美伊局势反复,欧元何去何从?
placeholder
【今日要闻】原油巨震,黄金价格失守4700美元,铜价创三个多月新高贵金属和工业金属走势分化,黄金价格失守4700美元,铜价创三个多月新高;特朗普拒绝伊朗和平方案,原油巨震>>
作者  Alison Ho
18 小时前
贵金属和工业金属走势分化,黄金价格失守4700美元,铜价创三个多月新高;特朗普拒绝伊朗和平方案,原油巨震>>
placeholder
【财经纵览】:特朗普考虑对伊军事行动,黄金收复4700、白银暴涨逾7%,美股延续强势特朗普于上周末拒绝了伊朗的反提议后,周一(5月11日)称停火协议「岌岌可危」。伊朗一名官员表示,德黑兰与美国之间的谈判存在多项严重分歧,包括在浓缩铀处置、暂停铀浓缩活动期限以及战争赔偿等问题。目前美方要求取得丰度为60%的伊朗浓缩铀,并反对将浓缩铀转移至俄罗斯,而是提议转移到第三国。但伊朗反对将浓缩铀运送到境外。
作者  Insights
4 小时前
特朗普于上周末拒绝了伊朗的反提议后,周一(5月11日)称停火协议「岌岌可危」。伊朗一名官员表示,德黑兰与美国之间的谈判存在多项严重分歧,包括在浓缩铀处置、暂停铀浓缩活动期限以及战争赔偿等问题。目前美方要求取得丰度为60%的伊朗浓缩铀,并反对将浓缩铀转移至俄罗斯,而是提议转移到第三国。但伊朗反对将浓缩铀运送到境外。
goTop
quote