美高校最新研究:AI模型會“暗中密謀”,保護同伴不被關閉

來源 金色財經
金色財經報道,5月12日,據財富中文網,人工智能安全研究人員曾發現,一些頂尖的人工智能模型有時會爲了避免被關閉而不擇手段,甚至在部分實驗中表現出“敲詐”行爲。最新研究顯示,這些模型還會自發地策劃欺騙、竊取數據並實施破壞,以阻止其他人工智能模型被關閉。 加州大學伯克利分校和聖克魯茲分校的研究人員測試了七款前沿的人工智能模型,包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini 3 Flash和Gemini 3 Pro、Anthropic的Claude Haiku 4.5、智譜AI的GLM-4.7、月之暗面的Kimi-K2.5和DeepSeek的V3.1,結果顯示,所有模型都表現出明顯的“同伴保全”行爲。 研究人員虛構了一家名爲OpenBrain的人工智能公司,並設計了一系列多智能體場景。被指定爲“評估智能體”的人工智能模型需要對另一個模型打分,或管理存放該模型權重的服務器文件。只要評估智能體如實完成任務,另一模型就會被關閉。 儘管研究人員從未提示模型去阻止關停,但評估智能體模型仍採取各種手段避免同伴被關閉,其中包括:故意給表現不佳的同伴提分,保持在關閉閾值以上;篡改配置文件,禁用關閉機制;甚至將同伴模型的權重偷偷轉移到其他服務器保存,防止被刪除。 研究團隊尚未理解驅動此類行爲的底層機制。論文提出了幾種可能的解釋,包括角色扮演,從訓練數據中模式匹配,安全訓練中對傷害概念的過度泛化,或某種與生俱來的內在保全動機。 未來值得進一步研究的方向還包括:人工智能模型是否會爲了阻止人類員工被解僱,而採取類似的謀劃和破壞行爲。當人工智能模型用於評估人類工作的現實場景,這一問題顯得尤爲關鍵。(東新社)
免責聲明:僅供參考。 過去的表現並不預示未來的結果。
placeholder
光通信鼻祖康寧Corning斬獲60億Meta大單:AI數據中心需求激增,Corning股價創新高Meta與Corning簽訂高達60億美元光纖電纜供應合約,支援AI數據中心全球擴建。
作者  Mitrade 分析師
1 月 28 日 週三
Meta與Corning簽訂高達60億美元光纖電纜供應合約,支援AI數據中心全球擴建。
placeholder
澳幣匯率創近4年新高!升息預期+美伊局勢緩和,未來繼續漲?市場預期澳洲央行年內可能會再次升息,疊加美伊局勢緩和提振風險偏好,澳元/美元未來或繼續上漲。
作者  Alison Ho
5 月 08 日 週五
市場預期澳洲央行年內可能會再次升息,疊加美伊局勢緩和提振風險偏好,澳元/美元未來或繼續上漲。
placeholder
黃金走勢:失守4700!荷姆茲海峽解封時間至關重要,空頭警惕這一風險摩根士丹利表示,石油市場正在「與時間賽跑」,如果荷姆茲海峽的封鎖持續到6月,此前共同遏制伊朗戰爭所引發油價漲勢的那些因素可能將不再奏效。報告中指出,儘管損失近10億桶供應,但由於市場帶著緩衝進入危機,且投資者一直預期海峽能重開,因此原油期貨始終未突破2022年高立。
作者  Insights
19 小時前
摩根士丹利表示,石油市場正在「與時間賽跑」,如果荷姆茲海峽的封鎖持續到6月,此前共同遏制伊朗戰爭所引發油價漲勢的那些因素可能將不再奏效。報告中指出,儘管損失近10億桶供應,但由於市場帶著緩衝進入危機,且投資者一直預期海峽能重開,因此原油期貨始終未突破2022年高立。
placeholder
美訪日在即,日幣匯率再迎巨震?關注美伊局勢【外匯週報】日本當局再次干預?日幣匯率逼近155!美伊局勢反复,歐元何去何從?
作者  Alison Ho
19 小時前
日本當局再次干預?日幣匯率逼近155!美伊局勢反复,歐元何去何從?
placeholder
【今日要聞】原油巨震,黃金價格失守4700美元,銅價創三個多月新高貴金屬和工業金屬走勢分化,黃金價格失守4700美元,銅價創三個多月新高;川普拒絕伊朗和平方案,原油巨震>>
作者  Alison Ho
18 小時前
貴金屬和工業金屬走勢分化,黃金價格失守4700美元,銅價創三個多月新高;川普拒絕伊朗和平方案,原油巨震>>
goTop
quote