Meta,Google,OpenAI研究人員擔心AI可以學會隱藏其思想

來源 Cryptopolitan

來自OpenAI,DeepMind,Google,Anthropic和Meta的40多名AI研究人員發表了一篇有關安全工具的論文,稱爲“經過經過經過經過經過經過經過經過經過管理的監控”,以使AI更安全。 

論文,從而可以保留細節並處理複雜的問題。

該論文說:“人類語言'思考'的AI系統爲人工智能安全提供了獨特的機會:我們可以監視他們的思想鏈(COT),以免行爲不當。”

通過檢查每個詳細的思想步驟,開發人員可以發現任何模型開始利用訓練空白,彎曲事實或遵循危險命令時。

根據這項研究,如果AI的思維鏈出錯,您可以將其停止,將其推向更安全的步驟或標記它以仔細觀察。例如,Openai用這一點來抓住AI隱藏的推理說“ Let's Hack”的,即使這在最終回應中從未出現。

人工智能可以學會隱藏自己的思想

該研究警告說,如果訓練只會獎勵最終答案,則逐步透明度可能會消失。未來的模型可能會停止展示人類可讀的推理,而真正先進的AI甚至可以在他們知道自己被監視時學會隱藏他們的思維過程。

此外,開發人員應定期檢查並記錄每個階段AI的推理的多少,並在建立和共享模型時使該透明度成爲核心安全規則。

該計劃遵循領先的實驗室,人類,Google,OpenAI和XAI的內部實驗,在此促使團隊促使模型解釋每個思維步驟。

儘管檢查逐步思維已經提高了理解和表現,但也揭示了AI的最終答案與內部實際發生的事情不符。

AI決策的理解,這是一個盲點,隨着系統獲得更大的自主權,這種關注可能會加劇。

過濾AI推理引起了人們對透明和信任的關注

正如擬人聯合創始人傑克·克拉克(Jack Clark)告訴《金融時報》(Financial Times) ,豐富的內省trac對於評估包括生物技術研究在內的高風險領域的模型至關重要。

普通用戶會刪除AI的思維,危險或令人困惑的位置的編輯摘要,而公司的工程師可以看到完整的思想鏈來發現和解決問題。

Openai: “關於鏈的可解釋性,一件很棒的事情是,這主要是免費發生的。”

貝克補充說:“我們對這些模型進行了訓練,並不是爲了使它們被解釋。我們訓練了它們,因爲我們想要最好的推理模型來解決複雜的問題。” “我們在最近的工作中發現,您可以閱讀它們,並找到模型行爲不端的證據,並以此來查看它在哪裏以及爲何表現不當。”

AI的思想鏈真的可靠嗎?

有時,仔細觀察可能會發現隱藏的矛盾。

例如,梅特爾(Metr)看到克勞德(Claude)的私人推理稱編碼技巧爲“不高度”,儘管公衆回答稱讚它是“優雅”。

OpenAI測試表明,檢查隱藏的思想比僅查看最終輸出更好地捕捉不安全的動作,但他們也發現了一個漏洞。如果您訓練模型以消除不安全的想法,它仍然可以祕密執行禁止的任務,例如從被阻止的來源中偷偷摸摸的數據。

貝克警告說:“我們想要鏈的核心特性之一是將其作爲模型內部大腦狀態的一部分,而不是試圖取悅我們或符合特定結構的東西。”如果開發人員過分強調強迫模型發出“良好”的想法,則它可能會僞造無害的推理,但仍在執行有害操作。

研究人員承認,這是一個艱難的交易。看到AI的思想鏈有助於捕獲其錯誤,但並不總是可靠的。從事更高級AI的實驗室現在正是縮小此信任差距的重中之重。

“過去幾年中,我從AI的收穫是 - 從來沒有押注模型進度,” Google的早期思想鏈的先驅說,他現在領導了亞馬遜的AI實驗室。 Luan預計將在短期內解決現有的缺點。

梅特研究員悉尼馮·阿克斯(Sydney Von Arx)指出,儘管AI的隱藏推理有時可能具有欺騙性,但它仍然提供了有價值的信號。

她說:“我們應該對待軍方可能對待被攔截的敵方無線電通信的方式來對待鏈條。” “該信息可能具有誤導性或編碼,但我們知道它帶有有用的信息。隨着時間的流逝,我們通過研究它來學習很多信息。”

加密大都會學院:想在2025年養活您的錢嗎?在即將到來的WebClass中DeFi進行操作保存您的位置

免責聲明:僅供參考。 過去的表現並不預示未來的結果。
placeholder
日幣匯率貶值破149!黑天鵝即將到來,日本重演「特拉斯時刻」? 日本選舉帶來的不確定性,使得市場偏向做空日幣。美元/日圓(USD/JPY)漲破149,創三個多月新高。
作者  Alison Ho
昨日 02: 54
日本選舉帶來的不確定性,使得市場偏向做空日幣。美元/日圓(USD/JPY)漲破149,創三個多月新高。
placeholder
澳元因重新燃起的樂觀情緒而上漲,市場等待美國生產者物價指數數據澳元(AUD)在週三對美元(USD)上漲,結束了連續三天的下跌走勢。由於美國總統唐納德·特朗普願意進一步參與貿易討論,推動了市場的樂觀情緒,澳元/美元小幅升值
作者  FXStreet
昨日 03: 39
澳元(AUD)在週三對美元(USD)上漲,結束了連續三天的下跌走勢。由於美國總統唐納德·特朗普願意進一步參與貿易討論,推動了市場的樂觀情緒,澳元/美元小幅升值
placeholder
日元瘋,黃金跟著瘋!匯率跌破 0.2005,換10萬台幣多拿7萬日元,迪士尼門票省 4 張!​日圓貶值,如同送錢!繼昨日跌破 0.2007 後,今天台銀日圓現鈔賣價直接砸出 0.2005 的歷史新低點,相當於 1 塊新台幣能換近 5 日元,簡直是薅日本羊毛!換句話說,換10 萬多賺 7 萬,迪士尼票直接省 4 張!
作者  投資-槓把子
昨日 08: 39
​日圓貶值,如同送錢!繼昨日跌破 0.2007 後,今天台銀日圓現鈔賣價直接砸出 0.2005 的歷史新低點,相當於 1 塊新台幣能換近 5 日元,簡直是薅日本羊毛!換句話說,換10 萬多賺 7 萬,迪士尼票直接省 4 張!
placeholder
日圓恢復下行趨勢;美元/日圓在新一輪美元買入中攀升至148.00中段在週四亞洲時段發布的數據表明,日本在6月份的貿易順差低於預期,伴隨著出口的持續下降,日圓(JPY)吸引了新的賣盤
作者  FXStreet
7 小時前
在週四亞洲時段發布的數據表明,日本在6月份的貿易順差低於預期,伴隨著出口的持續下降,日圓(JPY)吸引了新的賣盤
placeholder
日本大選將近,日幣匯率將跌破150?分析師:不排除155!如果執政聯盟大幅失去多數席位,日幣兌美元匯率可能跌至155。反之,日幣兌美元匯率可能升至144左右。
作者  Tony Chou
4 小時前
如果執政聯盟大幅失去多數席位,日幣兌美元匯率可能跌至155。反之,日幣兌美元匯率可能升至144左右。
goTop
quote