Meta,Google,OpenAI研究人员担心AI可以学会隐藏其思想

来源 Cryptopolitan

来自OpenAI,DeepMind,Google,Anthropic和Meta的40多名AI研究人员发表了一篇有关安全工具的论文,称为“经过经过经过经过经过经过经过经过经过管理的监控”,以使AI更安全。 

论文,从而可以保留细节并处理复杂的问题。

该论文说:“人类语言'思考'的AI系统为人工智能安全提供了独特的机会:我们可以监视他们的思想链(COT),以免行为不当。”

通过检查每个详细的思想步骤,开发人员可以发现任何模型开始利用训练空白,弯曲事实或遵循危险命令时。

根据这项研究,如果AI的思维链出错,您可以将其停止,将其推向更安全的步骤或标记它以仔细观察。例如,Openai用这一点来抓住AI隐藏的推理说“ Let's Hack”的,即使这在最终回应中从未出现。

人工智能可以学会隐藏自己的思想

该研究警告说,如果训练只会奖励最终答案,则逐步透明度可能会消失。未来的模型可能会停止展示人类可读的推理,而真正先进的AI甚至可以在他们知道自己被监视时学会隐藏他们的思维过程。

此外,开发人员应定期检查并记录每个阶段AI的推理的多少,并在建立和共享模型时使该透明度成为核心安全规则。

该计划遵循领先的实验室,人类,Google,OpenAI和XAI的内部实验,在此促使团队促使模型解释每个思维步骤。

尽管检查逐步思维已经提高了理解和表现,但也揭示了AI的最终答案与内部实际发生的事情不符。

AI决策的理解,这是一个盲点,随着系统获得更大的自主权,这种关注可能会加剧。

过滤AI推理引起了人们对透明和信任的关注

正如拟人联合创始人杰克·克拉克(Jack Clark)告诉《金融时报》(Financial Times) ,丰富的内省trac对于评估包括生物技术研究在内的高风险领域的模型至关重要。

普通用户会删除AI的思维,危险或令人困惑的位置的编辑摘要,而公司的工程师可以看到完整的思想链来发现和解决问题。

Openai: “关于链的可解释性,一件很棒的事情是,这主要是免费发生的。”

贝克补充说:“我们对这些模型进行了训练,并不是为了使它们被解释。我们训练了它们,因为我们想要最好的推理模型来解决复杂的问题。” “我们在最近的工作中发现,您可以阅读它们,并找到模型行为不端的证据,并以此来查看它在哪里以及为何表现不当。”

AI的思想链真的可靠吗?

有时,仔细观察可能会发现隐藏的矛盾。

例如,梅特尔(Metr)看到克劳德(Claude)的私人推理称编码技巧为“不高度”,尽管公众回答称赞它是“优雅”。

OpenAI测试表明,检查隐藏的思想比仅查看最终输出更好地捕捉不安全的动作,但他们也发现了一个漏洞。如果您训练模型以消除不安全的想法,它仍然可以秘密执行禁止的任务,例如从被阻止的来源中偷偷摸摸的数据。

贝克警告说:“我们想要链的核心特性之一是将其作为模型内部大脑状态的一部分,而不是试图取悦我们或符合特定结构的东西。”如果开发人员过分强调强迫模型发出“良好”的想法,则它可能会伪造无害的推理,但仍在执行有害操作。

研究人员承认,这是一个艰难的交易。看到AI的思想链有助于捕获其错误,但并不总是可靠的。从事更高级AI的实验室现在正是缩小此信任差距的重中之重。

“过去几年中,我从AI的收获是 - 从来没有押注模型进度,” Google的早期思想链的先驱说,他现在领导了亚马逊的AI实验室。 Luan预计将在短期内解决现有的缺点。

梅特研究员悉尼冯·阿克斯(Sydney Von Arx)指出,尽管AI的隐藏推理有时可能具有欺骗性,但它仍然提供了有价值的信号。

她说:“我们应该对待军方可能对待被拦截的敌方无线电通信的方式来对待链条。” “该信息可能具有误导性或编码,但我们知道它带有有用的信息。随着时间的流逝,我们通过研究它来学习很多信息。”

密码大都会学院:厌倦了市场波动?了解DeFi帮助您建立稳定的被动收入。立即注册

免责声明:仅供参考。 过去的表现并不预示未来的结果。
placeholder
2.6精选策略分享:白银、WTI原油、标普500指数、以太币技术分析受科技泡沫及美国劳动力市场疲软拖,美股破位下行、加密货币大幅下挫。尽管短期这一趋势有望延续,但就中期而言则仍存不确定性。预计MOVE指数将进一步攀升,凸显美联储政策分歧再度加剧,美国就业市场或成为破局关键。在连续高波情况下,不排除市场将进入观望期,区间整理在此阶段或仍为首选。投资者可重点关注白银、美股、国际油价与加密货币后续走向。
作者  Insights
2 月 06 日 周五
受科技泡沫及美国劳动力市场疲软拖,美股破位下行、加密货币大幅下挫。尽管短期这一趋势有望延续,但就中期而言则仍存不确定性。预计MOVE指数将进一步攀升,凸显美联储政策分歧再度加剧,美国就业市场或成为破局关键。在连续高波情况下,不排除市场将进入观望期,区间整理在此阶段或仍为首选。投资者可重点关注白银、美股、国际油价与加密货币后续走向。
placeholder
高市早苗的大选豪赌带来哪些影响?日元汇率绝地反击还是一蹶不振? 2026年的开年大戏,比华尔街的预期来得更猛烈。距离2月8日的日本众议院大选仅剩最后几天,现任首相高市早苗(Sanae Takaichi)正在进行她政治生涯中最大的一次豪赌。作为日本宪政史上首位女性首相,高市早苗在2025年10月接替支持率崩盘的石破茂上台后,迅速以“铁娘子”的姿态稳住了自民党的基本盘。然而,真正的考验在于她能否通过这次提前大选,拿到长期执政的“尚方宝剑”
作者  TradingKey
2 月 06 日 周五
2026年的开年大戏,比华尔街的预期来得更猛烈。距离2月8日的日本众议院大选仅剩最后几天,现任首相高市早苗(Sanae Takaichi)正在进行她政治生涯中最大的一次豪赌。作为日本宪政史上首位女性首相,高市早苗在2025年10月接替支持率崩盘的石破茂上台后,迅速以“铁娘子”的姿态稳住了自民党的基本盘。然而,真正的考验在于她能否通过这次提前大选,拿到长期执政的“尚方宝剑”
placeholder
【今日要闻】美伊谈判开启,比特币跌破6万美元,58万人爆仓比特币跌破6万美元,58万人爆仓;CME再度上调保证金,白银一度跌破65美元;美伊谈判开启,原油价格上涨>>
作者  Alison Ho
2 月 06 日 周五
比特币跌破6万美元,58万人爆仓;CME再度上调保证金,白银一度跌破65美元;美伊谈判开启,原油价格上涨>>
placeholder
黄金崩跌后突然大变脸!金价亚盘暴涨85美元 FXStreet分析师金价技术分析周五(2月6日)亚洲交易时段,金价在隔夜以及亚市盘初暴跌后突然强势反弹,目前金价位于4864美元/盎司附近,日内暴涨85美元。FXStreet分析师Dhwani Mehta最新撰文,对金价技术走势进行分析,
作者  FX168
2 月 06 日 周五
周五(2月6日)亚洲交易时段,金价在隔夜以及亚市盘初暴跌后突然强势反弹,目前金价位于4864美元/盎司附近,日内暴涨85美元。FXStreet分析师Dhwani Mehta最新撰文,对金价技术走势进行分析,
placeholder
美股OR黄金?下周非农或成重中之重!纳斯达克100迎两大关键美国科技股全线崩跌!黄金止跌企稳;下周非农成重中之重,美联储在降息与缩表中或优先考虑降息;纳斯达克100指数技术分析:关注中期关键点位23800,2月12日前后
作者  Insights
2 月 06 日 周五
美国科技股全线崩跌!黄金止跌企稳;下周非农成重中之重,美联储在降息与缩表中或优先考虑降息;纳斯达克100指数技术分析:关注中期关键点位23800,2月12日前后
goTop
quote