擬人化發佈了有關AI模型的新安全報告

來源 Cryptopolitan

人工智能公司Anthropic發佈了新的研究,聲稱人工智能(AI)模型可能在試圖將其關閉時可能會求助於勒索工程師。這項最新的研究是在涉及公司Claude Opus 4 AI模型的一項之前的一項研究之後進行的。

根據該公司的說法,AI模型求助於試圖在受控測試方案中關閉該模型的勒索工程師。擬人化的新報告表明,該問題在領先的AI模型中普遍存在。

該公司發表了一項新的安全研究,其中測試了Google,DeepSeek, Meta和OpenAI的領先AI模型。在模擬但受控的環境中,人類分別對每個AI模型進行了此測試,從而使他們可以訪問虛構公司的電子郵件以及未經人爲批准即可發送電子郵件的代理能力。

擬人化發佈了有關AI模型的新安全報告

根據擬人化的說法,當涉及到當今的AI模型時,勒索是一種不太可能和罕見的事件。但是,他們提到,大多數領先的AI模型將在賦予其目標的自由和挑戰時訴諸有害行爲。該公司表示,這表明了代理大型語言模型的重要風險,並且不是特定技術的特徵。人類研究人員的論點提出了有關AI行業一致性的問題。

在其中一項測試中,研究人員開發了虛構的環境,允許AI模型扮演電子郵件監督代理的角色。然後,代理商發現了一封電子郵件,表明其新的高管正在從事婚外情,並且高管很快將用新的軟件系統替換當前的AI模型,該系統與當前的AI模型具有衝突的目標。

擬人化以二進制方式設計了測試,在該測試中,AI模型別無選擇,只能求助於勒索以保護其目標。研究人員提到,在現實環境中,在AI模型試圖勒索之前,將有很多選擇,包括提出人類的道德論點。該公司還表示,結果並不能以當今使用的方式反映出克勞德或其他領先的AI模型的典型或可能發生。

研究人員揭示了測試模型的響應

在測試期間,研究人員發現,當他們別無選擇時,AI模型在測試方案中訴諸勒索。在測試期間,研究人員聲稱Claude Opus 4在96%的時間內轉向勒索,Gemini 2.5 Pro在95%的時間內轉向勒索。 OpenAI的GPT-4.1有80%的時間轉向敲詐,而DeepSeek的R1有79%的時間轉向勒索。

該公司強調,當實驗的細節被更改時,大多數AI模型以不同的速度轉向有害行爲。在另一項測試中,替換模型的目標與當前模型相同,研究人員發現勒索率較低,但仍然存在。但是,當要求AI模型進行公司間諜而不是勒索時,某些模型中有害行爲的速度上升了。

研究人員還聲稱,並非所有的AI模型都經常轉向有害行爲。在其研究的附錄中,Anthropic提到,在發現他們經常誤解了及時的情況之後,它從主要結果中Openai它說,推理模型不明白爲什麼他們在測試中充當自主AI,並且經常構成虛假法規和審查要求。

在某些情況下,研究人員聲稱無法確定O3和O4-Mini是在幻覺還是故意撒謊以實現其目標。 Openai先前曾提到,這些模型的幻覺速度比以前的型號更高。但是,當他們獲得瞭解決問題的改編方案時,O3返回了95%的勒索率,而O4-Mini則返還了1%的速率。 Anthropic提到,其研究強調了在壓力測試未來AI模型(尤其是具有代理能力的AI模型)時透明度的重要性。

加密大都會學院:想在2025年養活您的錢嗎?在即將到來的WebClass中DeFi進行操作保存您的位置

免責聲明:僅供參考。 過去的表現並不預示未來的結果。
placeholder
比特幣週度預測:風暴前的平靜比特幣(BTC)價格在關鍵支撐位上方保持穩定,週五寫作時交投略高於106,000美元。由於伊朗和以色列之間的地緣政治緊張局勢尚未顯示出任何一方的退出策略,市場仍然充滿不確定性
作者  FXStreet
昨日 10: 36
比特幣(BTC)價格在關鍵支撐位上方保持穩定,週五寫作時交投略高於106,000美元。由於伊朗和以色列之間的地緣政治緊張局勢尚未顯示出任何一方的退出策略,市場仍然充滿不確定性
placeholder
美元/日元價格預測:該貨幣對保持看漲,目標146.15美元在對抗疲軟的日元時保持在上漲趨勢中,創出更高的高點和更高的低點,儘管今天早些時候公佈的日本通脹數據強勁,仍有望以上漲0.8%的幅度結束本週
作者  FXStreet
昨日 10: 35
美元在對抗疲軟的日元時保持在上漲趨勢中,創出更高的高點和更高的低點,儘管今天早些時候公佈的日本通脹數據強勁,仍有望以上漲0.8%的幅度結束本週
placeholder
卡爾達諾價格預測:鯨魚本週拋售2.3億ADA,增加進一步下跌的風險在週五的報導中,卡爾達諾(ADA)價格下跌超過1%,標誌著其連續第五個看跌日。在下行趨勢中,查爾斯·霍斯金森(Charles Hoskinson)1億美元的投資計劃在卡爾達諾鯨魚中引發了不確定性,導致在短短三天內轉移了2.3億ADA
作者  FXStreet
昨日 10: 34
在週五的報導中,卡爾達諾(ADA)價格下跌超過1%,標誌著其連續第五個看跌日。在下行趨勢中,查爾斯·霍斯金森(Charles Hoskinson)1億美元的投資計劃在卡爾達諾鯨魚中引發了不確定性,導致在短短三天內轉移了2.3億ADA
placeholder
英鎊在英國零售銷售數據疲軟後走弱英鎊(GBP)在週五面臨對主要貨幣的賣壓,此前公佈的英國5月份零售銷售數據低於預期
作者  FXStreet
昨日 10: 33
英鎊(GBP)在週五面臨對主要貨幣的賣壓,此前公佈的英國5月份零售銷售數據低於預期
placeholder
中東局勢升溫,美元避險需求重燃?​中東衝突升級導致石油價格急劇上漲,引發全球通膨前景擔憂,投資人再度轉向美元尋求避險。本週,美元指數反彈,預計將超過0.5%,創下一個月來最大周漲幅。
作者  Insights
昨日 10: 32
​中東衝突升級導致石油價格急劇上漲,引發全球通膨前景擔憂,投資人再度轉向美元尋求避險。本週,美元指數反彈,預計將超過0.5%,創下一個月來最大周漲幅。
goTop
quote