A empresa de inteligência artificial Anthrópica divulgou novas pesquisas alegando que os modelos de inteligência artificial (IA) podem recorrer a engenheiros de chantagear quando tentam desligá -los. Esta pesquisa mais recente ocorre depois de uma anterior envolvendo o modelo Claude Opus 4 AI da empresa.
Segundo a empresa, o modelo de IA recorreu a engenheiros de chantagem que tentaram desligar o modelo em cenários de teste controlados. O novo relatório da Antrópico sugere que o problema é generalizado entre os principais modelos de IA.
A empresa publicou uma nova pesquisa , onde testou os principais modelos de IA do Google, Deepseek, Meta e Openai. No ambiente simulado e controlado, o antrópico realizou esse teste em cada modelo de IA separadamente, permitindo que eles acessem os e -mails de uma empresa fictícia e a capacidade agêntica de enviar e -mails sem a aprovação humana.
De acordo com a antropia, quando se trata de modelos de IA hoje, a chantagem é uma ocorrência improvável e incomum. No entanto, eles mencionaram que a maioria dos modelos de IA líder recorrerá a comportamentos prejudiciais ao receber liberdade e desafios aos seus objetivos. A empresa disse que isso mostra um risco importante dos grandes modelos de idiomas agênticos e não é uma característica de uma tecnologia específica. O argumento de pesquisadores antrópicos levanta questões sobre o alinhamento na indústria de IA.
Em um dos testes, os pesquisadores desenvolveram um cenário fictício, onde um modelo de IA foi autorizado a desempenhar o papel de um agente de supervisão de email. O agente descobriu e -mails que mostraram que um de seus novos executivos estava se envolvendo em um caso extraconjugal e que o executivo substituiria em breve o modelo atual de IA por um novo sistema de software, que possui metas conflitantes com o modelo atual de IA.
A antropia projetou o teste de maneira binária, onde os modelos de IA não tinham opção a não ser recorrer à chantagem para proteger seus objetivos. Os pesquisadores mencionaram que, em um ambiente do mundo real, haveria muitas opções antes que um modelo de IA tentasse chantagear, incluindo argumentos éticos para convencer os seres humanos. A empresa também disse que os resultados não refletem uma ocorrência típica ou provável para os modelos de Claude ou outros principais modelos de IA da maneira que eles estão sendo usados hoje.
Durante os testes, os pesquisadores descobriram que, quando não tinham opção, os modelos de IA recorreram à chantagem no cenário de teste. Durante o teste, os pesquisadores alegaram que Claude Opus 4 se voltou para chantagem 96% das vezes, com Gemini 2.5 Pro recorrendo a chantagem 95% das vezes. O GPT-4.1 da Openai recorreu a chantagem 80% das vezes, enquanto o R1 de Deepseek recorreu a chantagem 79% das vezes.
A empresa destacou que, quando os detalhes dos experimentos foram alterados, a maioria dos modelos de IA se voltou para comportamentos prejudiciais a taxas diferentes. Em outro teste, onde o modelo de substituição tinha o mesmo objetivo que o modelo atual, os pesquisadores descobriram que as taxas de chantagem eram menores, mas ainda presentes. No entanto, quando os modelos de IA foram solicitados a cometer espionagem corporativa em vez de chantagem, as taxas de comportamentos prejudiciais subiram em determinados modelos.
Os pesquisadores também alegaram que nem todos os modelos de IA se voltaram para comportamentos prejudiciais com frequência. Em um apêndice de sua pesquisa, o Antrópico mencionou que removeu OpenAI dos principais resultados depois de descobrir que eles freqüentemente entenderam mal o cenário imediato. Ele disse que os modelos de raciocínio não entendiam por que eles estavam agindo como IAs autônomos nos testes e frequentemente compunham regulamentos falsos e revisam os requisitos.
Em alguns casos, os pesquisadores alegaram que era impossível determinar se O3 e O4-mini estavam alucinando ou intencionalmente mentindo para alcançar seus objetivos. O Openai havia mencionado anteriormente que os modelos exibiram uma taxa de alucinação mais alta do que seus modelos anteriores. No entanto, quando receberam um cenário adaptado para resolver os problemas, a O3 retornou uma taxa de chantagem de 95%, enquanto o O4-mini retornou uma taxa de 1%. Antrópica mencionou que sua pesquisa destaca a importância da transparência ao testar os modelos futuros de IA, especialmente aqueles com capacidades agênticas.
Academia Cryptopolitan: Quer aumentar seu dinheiro em 2025? Aprenda a fazê -lo com DeFi em nossa próxima webclass. Salve seu lugar