擬人化發佈了有關AI模型的新安全報告

來源 Cryptopolitan

人工智能公司Anthropic發佈了新的研究,聲稱人工智能(AI)模型可能在試圖將其關閉時可能會求助於勒索工程師。這項最新的研究是在涉及公司Claude Opus 4 AI模型的一項之前的一項研究之後進行的。

根據該公司的說法,AI模型求助於試圖在受控測試方案中關閉該模型的勒索工程師。擬人化的新報告表明,該問題在領先的AI模型中普遍存在。

該公司發表了一項新的安全研究,其中測試了Google,DeepSeek, Meta和OpenAI的領先AI模型。在模擬但受控的環境中,人類分別對每個AI模型進行了此測試,從而使他們可以訪問虛構公司的電子郵件以及未經人爲批准即可發送電子郵件的代理能力。

擬人化發佈了有關AI模型的新安全報告

根據擬人化的說法,當涉及到當今的AI模型時,勒索是一種不太可能和罕見的事件。但是,他們提到,大多數領先的AI模型將在賦予其目標的自由和挑戰時訴諸有害行爲。該公司表示,這表明了代理大型語言模型的重要風險,並且不是特定技術的特徵。人類研究人員的論點提出了有關AI行業一致性的問題。

在其中一項測試中,研究人員開發了虛構的環境,允許AI模型扮演電子郵件監督代理的角色。然後,代理商發現了一封電子郵件,表明其新的高管正在從事婚外情,並且高管很快將用新的軟件系統替換當前的AI模型,該系統與當前的AI模型具有衝突的目標。

擬人化以二進制方式設計了測試,在該測試中,AI模型別無選擇,只能求助於勒索以保護其目標。研究人員提到,在現實環境中,在AI模型試圖勒索之前,將有很多選擇,包括提出人類的道德論點。該公司還表示,結果並不能以當今使用的方式反映出克勞德或其他領先的AI模型的典型或可能發生。

研究人員揭示了測試模型的響應

在測試期間,研究人員發現,當他們別無選擇時,AI模型在測試方案中訴諸勒索。在測試期間,研究人員聲稱Claude Opus 4在96%的時間內轉向勒索,Gemini 2.5 Pro在95%的時間內轉向勒索。 OpenAI的GPT-4.1有80%的時間轉向敲詐,而DeepSeek的R1有79%的時間轉向勒索。

該公司強調,當實驗的細節被更改時,大多數AI模型以不同的速度轉向有害行爲。在另一項測試中,替換模型的目標與當前模型相同,研究人員發現勒索率較低,但仍然存在。但是,當要求AI模型進行公司間諜而不是勒索時,某些模型中有害行爲的速度上升了。

研究人員還聲稱,並非所有的AI模型都經常轉向有害行爲。在其研究的附錄中,Anthropic提到,在發現他們經常誤解了及時的情況之後,它從主要結果中Openai它說,推理模型不明白爲什麼他們在測試中充當自主AI,並且經常構成虛假法規和審查要求。

在某些情況下,研究人員聲稱無法確定O3和O4-Mini是在幻覺還是故意撒謊以實現其目標。 Openai先前曾提到,這些模型的幻覺速度比以前的型號更高。但是,當他們獲得瞭解決問題的改編方案時,O3返回了95%的勒索率,而O4-Mini則返還了1%的速率。 Anthropic提到,其研究強調了在壓力測試未來AI模型(尤其是具有代理能力的AI模型)時透明度的重要性。

加密大都會學院:想在2025年養活您的錢嗎?在即將到來的WebClass中DeFi進行操作保存您的位置

免責聲明:僅供參考。 過去的表現並不預示未來的結果。
placeholder
【台股短線策略】AI題材火爆,高盛點名台積電(2330)為最被低估的AI受惠股輝達財報進一步印證了人工智慧(AI)熱潮,美股三大股指全線走高,標普、道指齊創新高,加之市場進一步押注聯准會降息,美債殖利率全線向下,市場樂觀情緒得以延續。投資者聚焦於週五(8月29日)公佈的美國7月個人消費支出(PCE)物價指數,預計7月核心PCE按年增長率達2.9%,為5個月來最快增速。數據將被視為評估通脹走勢與聯准會政策前景的重要依據。
作者  Insights
8 月 29 日 週五
輝達財報進一步印證了人工智慧(AI)熱潮,美股三大股指全線走高,標普、道指齊創新高,加之市場進一步押注聯准會降息,美債殖利率全線向下,市場樂觀情緒得以延續。投資者聚焦於週五(8月29日)公佈的美國7月個人消費支出(PCE)物價指數,預計7月核心PCE按年增長率達2.9%,為5個月來最快增速。數據將被視為評估通脹走勢與聯准會政策前景的重要依據。
placeholder
【今日市場前瞻】重磅PCE駕到!比特幣、以太幣大跌聯準會最青睞通膨指標駕到,市場行情一觸即發;比特幣、以太幣大跌!13萬人爆倉;黃金站上3400美元關口>>
作者  Alison Ho
8 月 29 日 週五
聯準會最青睞通膨指標駕到,市場行情一觸即發;比特幣、以太幣大跌!13萬人爆倉;黃金站上3400美元關口>>
placeholder
2000億股息資金狂潮來襲,9月台股佈局攻略:這3大題材股才是投資機會受到美國股市提振激勵,台股今(29)日開盤大漲333點,創歷史新高24,570點,隨後稍有回落,收在24,233點,成交量增至4,646億元。週K線翻紅,月K線連續四個月收紅。
作者  財富進化論
8 月 29 日 週五
受到美國股市提振激勵,台股今(29)日開盤大漲333點,創歷史新高24,570點,隨後稍有回落,收在24,233點,成交量增至4,646億元。週K線翻紅,月K線連續四個月收紅。
placeholder
00919配息揭曉倒數!百萬存股族緊盯,0.72元能否守住?​投資慧眼Insights-群益台灣精選高息(00919)將於9月1日揭曉第三季配息結果,130萬股民屏息以待。
作者  投資指南針
8 月 29 日 週五
​投資慧眼Insights-群益台灣精選高息(00919)將於9月1日揭曉第三季配息結果,130萬股民屏息以待。
placeholder
00919的困惑!當台積電起舞时,選擇市值型ETF的收益,還是高股息ETF的安穩?​台股近期如同乘坐雲霄飛車,創高後急速修正的走勢讓投資人心情七上八下。在這樣劇烈震盪的市場環境中,高股息ETF意外成為資金的避風港,其中群益台灣精選高息(00919)近半月表現格外亮眼,以0.56%的含息報酬率領跑同類型產品,引發市場關注。
作者  投資-槓把子
8 月 29 日 週五
​台股近期如同乘坐雲霄飛車,創高後急速修正的走勢讓投資人心情七上八下。在這樣劇烈震盪的市場環境中,高股息ETF意外成為資金的避風港,其中群益台灣精選高息(00919)近半月表現格外亮眼,以0.56%的含息報酬率領跑同類型產品,引發市場關注。
goTop
quote