Meta,Google,OpenAI研究人员担心AI可以学会隐藏其思想

来源 Cryptopolitan

来自OpenAI,DeepMind,Google,Anthropic和Meta的40多名AI研究人员发表了一篇有关安全工具的论文,称为“经过经过经过经过经过经过经过经过经过管理的监控”,以使AI更安全。 

论文,从而可以保留细节并处理复杂的问题。

该论文说:“人类语言'思考'的AI系统为人工智能安全提供了独特的机会:我们可以监视他们的思想链(COT),以免行为不当。”

通过检查每个详细的思想步骤,开发人员可以发现任何模型开始利用训练空白,弯曲事实或遵循危险命令时。

根据这项研究,如果AI的思维链出错,您可以将其停止,将其推向更安全的步骤或标记它以仔细观察。例如,Openai用这一点来抓住AI隐藏的推理说“ Let's Hack”的,即使这在最终回应中从未出现。

人工智能可以学会隐藏自己的思想

该研究警告说,如果训练只会奖励最终答案,则逐步透明度可能会消失。未来的模型可能会停止展示人类可读的推理,而真正先进的AI甚至可以在他们知道自己被监视时学会隐藏他们的思维过程。

此外,开发人员应定期检查并记录每个阶段AI的推理的多少,并在建立和共享模型时使该透明度成为核心安全规则。

该计划遵循领先的实验室,人类,Google,OpenAI和XAI的内部实验,在此促使团队促使模型解释每个思维步骤。

尽管检查逐步思维已经提高了理解和表现,但也揭示了AI的最终答案与内部实际发生的事情不符。

AI决策的理解,这是一个盲点,随着系统获得更大的自主权,这种关注可能会加剧。

过滤AI推理引起了人们对透明和信任的关注

正如拟人联合创始人杰克·克拉克(Jack Clark)告诉《金融时报》(Financial Times) ,丰富的内省trac对于评估包括生物技术研究在内的高风险领域的模型至关重要。

普通用户会删除AI的思维,危险或令人困惑的位置的编辑摘要,而公司的工程师可以看到完整的思想链来发现和解决问题。

Openai: “关于链的可解释性,一件很棒的事情是,这主要是免费发生的。”

贝克补充说:“我们对这些模型进行了训练,并不是为了使它们被解释。我们训练了它们,因为我们想要最好的推理模型来解决复杂的问题。” “我们在最近的工作中发现,您可以阅读它们,并找到模型行为不端的证据,并以此来查看它在哪里以及为何表现不当。”

AI的思想链真的可靠吗?

有时,仔细观察可能会发现隐藏的矛盾。

例如,梅特尔(Metr)看到克劳德(Claude)的私人推理称编码技巧为“不高度”,尽管公众回答称赞它是“优雅”。

OpenAI测试表明,检查隐藏的思想比仅查看最终输出更好地捕捉不安全的动作,但他们也发现了一个漏洞。如果您训练模型以消除不安全的想法,它仍然可以秘密执行禁止的任务,例如从被阻止的来源中偷偷摸摸的数据。

贝克警告说:“我们想要链的核心特性之一是将其作为模型内部大脑状态的一部分,而不是试图取悦我们或符合特定结构的东西。”如果开发人员过分强调强迫模型发出“良好”的想法,则它可能会伪造无害的推理,但仍在执行有害操作。

研究人员承认,这是一个艰难的交易。看到AI的思想链有助于捕获其错误,但并不总是可靠的。从事更高级AI的实验室现在正是缩小此信任差距的重中之重。

“过去几年中,我从AI的收获是 - 从来没有押注模型进度,” Google的早期思想链的先驱说,他现在领导了亚马逊的AI实验室。 Luan预计将在短期内解决现有的缺点。

梅特研究员悉尼冯·阿克斯(Sydney Von Arx)指出,尽管AI的隐藏推理有时可能具有欺骗性,但它仍然提供了有价值的信号。

她说:“我们应该对待军方可能对待被拦截的敌方无线电通信的方式来对待链条。” “该信息可能具有误导性或编码,但我们知道它带有有用的信息。随着时间的流逝,我们通过研究它来学习很多信息。”

密码大都会学院:厌倦了市场波动?了解DeFi帮助您建立稳定的被动收入。立即注册

免责声明:仅供参考。 过去的表现并不预示未来的结果。
placeholder
以太坊价格预测:在鲸鱼和ETF购买压力下,ETH在2025年首次实现月度正回报以太坊(ETH)周五交易价格约为2578美元,日内下跌2.6%,但在月度时间框架上上涨约46%——这是2025年首次实现正的月度回报——因为鲸鱼和ETF投资者回归,使这款顶级山寨币重新受到关注。
作者  FXStreet
6 月 02 日 周一
以太坊(ETH)周五交易价格约为2578美元,日内下跌2.6%,但在月度时间框架上上涨约46%——这是2025年首次实现正的月度回报——因为鲸鱼和ETF投资者回归,使这款顶级山寨币重新受到关注。
placeholder
台积电Q2财报前瞻:继续超预期?摩根士丹利建议财报前买进!鉴于人工智能(AI)需求十分强劲,台积电可能上调全年销售指引。
作者  Alison Ho
7 月 15 日 周二
鉴于人工智能(AI)需求十分强劲,台积电可能上调全年销售指引。
placeholder
英伟达股价再度飙升!美放松对华芯片管制,市值冲向5万亿?英伟达CEO黄仁勋最新资产涨至1486亿美元,成为全球第六大富豪。
作者  Alison Ho
昨日 07: 27
英伟达CEO黄仁勋最新资产涨至1486亿美元,成为全球第六大富豪。
placeholder
7月17日财经早餐:“解僱鲍威尔”引市场巨震!美元/日元失守148,黄金反复上攻3360,以太坊飙升逾7%解僱鲍威尔传闻一度引发市场巨震,美元指数终结四连涨。特朗普承认曾与议员谈论解雇鲍威尔话题。但解析称,“大概率不会解雇鲍威尔,除非证明存在欺诈行为”。美国6月生产物价指数(PPI)按月持平,不及预期升0.2%,缓解了市场对通胀上升担忧,市场押注美联储将于9月重启降息几率约54%。美国三大股指普遍上涨,道指升0.53%;标指涨0.32%;纳指反弹0.25%;中国金龙指数回落1.41%。
作者  Insights
9 小时前
解僱鲍威尔传闻一度引发市场巨震,美元指数终结四连涨。特朗普承认曾与议员谈论解雇鲍威尔话题。但解析称,“大概率不会解雇鲍威尔,除非证明存在欺诈行为”。美国6月生产物价指数(PPI)按月持平,不及预期升0.2%,缓解了市场对通胀上升担忧,市场押注美联储将于9月重启降息几率约54%。美国三大股指普遍上涨,道指升0.53%;标指涨0.32%;纳指反弹0.25%;中国金龙指数回落1.41%。
placeholder
以太币暴涨创近6个月新高!分析师目标价:5000美元!以太币(ETH)涨至3425美元,创自2025年1月以来新高。过去7天,以太币价格累计涨超20%。
作者  Alison Ho
7 小时前
以太币(ETH)涨至3425美元,创自2025年1月以来新高。过去7天,以太币价格累计涨超20%。
goTop
quote