Liberes antrópicos Novo relatório de segurança nos modelos de IA

Fonte Cryptopolitan

A empresa de inteligência artificial Anthrópica divulgou novas pesquisas alegando que os modelos de inteligência artificial (IA) podem recorrer a engenheiros de chantagear quando tentam desligá -los. Esta pesquisa mais recente ocorre depois de uma anterior envolvendo o modelo Claude Opus 4 AI da empresa.

Segundo a empresa, o modelo de IA recorreu a engenheiros de chantagem que tentaram desligar o modelo em cenários de teste controlados. O novo relatório da Antrópico sugere que o problema é generalizado entre os principais modelos de IA.

A empresa publicou uma nova pesquisa , onde testou os principais modelos de IA do Google, Deepseek, Meta e Openai. No ambiente simulado e controlado, o antrópico realizou esse teste em cada modelo de IA separadamente, permitindo que eles acessem os e -mails de uma empresa fictícia e a capacidade agêntica de enviar e -mails sem a aprovação humana.

Liberes antrópicos Novo relatório de segurança nos modelos de IA

De acordo com a antropia, quando se trata de modelos de IA hoje, a chantagem é uma ocorrência improvável e incomum. No entanto, eles mencionaram que a maioria dos modelos de IA líder recorrerá a comportamentos prejudiciais ao receber liberdade e desafios aos seus objetivos. A empresa disse que isso mostra um risco importante dos grandes modelos de idiomas agênticos e não é uma característica de uma tecnologia específica. O argumento de pesquisadores antrópicos levanta questões sobre o alinhamento na indústria de IA.

Em um dos testes, os pesquisadores desenvolveram um cenário fictício, onde um modelo de IA foi autorizado a desempenhar o papel de um agente de supervisão de email. O agente descobriu e -mails que mostraram que um de seus novos executivos estava se envolvendo em um caso extraconjugal e que o executivo substituiria em breve o modelo atual de IA por um novo sistema de software, que possui metas conflitantes com o modelo atual de IA.

A antropia projetou o teste de maneira binária, onde os modelos de IA não tinham opção a não ser recorrer à chantagem para proteger seus objetivos. Os pesquisadores mencionaram que, em um ambiente do mundo real, haveria muitas opções antes que um modelo de IA tentasse chantagear, incluindo argumentos éticos para convencer os seres humanos. A empresa também disse que os resultados não refletem uma ocorrência típica ou provável para os modelos de Claude ou outros principais modelos de IA da maneira que eles estão sendo usados hoje.

Os pesquisadores revelam a resposta de modelos testados

Durante os testes, os pesquisadores descobriram que, quando não tinham opção, os modelos de IA recorreram à chantagem no cenário de teste. Durante o teste, os pesquisadores alegaram que Claude Opus 4 se voltou para chantagem 96% das vezes, com Gemini 2.5 Pro recorrendo a chantagem 95% das vezes. O GPT-4.1 da Openai recorreu a chantagem 80% das vezes, enquanto o R1 de Deepseek recorreu a chantagem 79% das vezes.

A empresa destacou que, quando os detalhes dos experimentos foram alterados, a maioria dos modelos de IA se voltou para comportamentos prejudiciais a taxas diferentes. Em outro teste, onde o modelo de substituição tinha o mesmo objetivo que o modelo atual, os pesquisadores descobriram que as taxas de chantagem eram menores, mas ainda presentes. No entanto, quando os modelos de IA foram solicitados a cometer espionagem corporativa em vez de chantagem, as taxas de comportamentos prejudiciais subiram em determinados modelos.

Os pesquisadores também alegaram que nem todos os modelos de IA se voltaram para comportamentos prejudiciais com frequência. Em um apêndice de sua pesquisa, o Antrópico mencionou que removeu OpenAI dos principais resultados depois de descobrir que eles freqüentemente entenderam mal o cenário imediato. Ele disse que os modelos de raciocínio não entendiam por que eles estavam agindo como IAs autônomos nos testes e frequentemente compunham regulamentos falsos e revisam os requisitos.

Em alguns casos, os pesquisadores alegaram que era impossível determinar se O3 e O4-mini estavam alucinando ou intencionalmente mentindo para alcançar seus objetivos. O Openai havia mencionado anteriormente que os modelos exibiram uma taxa de alucinação mais alta do que seus modelos anteriores. No entanto, quando receberam um cenário adaptado para resolver os problemas, a O3 retornou uma taxa de chantagem de 95%, enquanto o O4-mini retornou uma taxa de 1%. Antrópica mencionou que sua pesquisa destaca a importância da transparência ao testar os modelos futuros de IA, especialmente aqueles com capacidades agênticas.

Academia Cryptopolitan: Quer aumentar seu dinheiro em 2025? Aprenda a fazê -lo com DeFi em nossa próxima webclass. Salve seu lugar

Isenção de responsabilidade: Apenas para fins informativos. O desempenho passado não é indicativo de resultados futuros.
placeholder
A Amazon planeja gastar US $ 233 milhões na Índia até 2025 para tornar as entregas mais rapidamente e mais segurasA Amazon gastará US $ 233 milhões na Índia até 2025 para tornar as entregas mais rapidamente e seguras.
Autor  Cryptopolitan
Ontem 02: 18
A Amazon gastará US $ 233 milhões na Índia até 2025 para tornar as entregas mais rapidamente e seguras.
placeholder
O FMI vê uma oportunidade para fortalecer o papel do euroA diretora administrativa do Fundo Monetário Internacional (FMI), Kristalina Georgieva, quer que o euro desempenhe um papel maior na economia global, particularmente como moeda de reserva e uma ferramenta para melhorar a resiliência econômica da Europa. A diretora -gerente Kristalina Georgieva esteve em Luxemburgo na quinta -feira, onde fez comentários na reunião do Eurogroup sobre o aumento da competitividade e […]
Autor  Cryptopolitan
Ontem 02: 14
A diretora administrativa do Fundo Monetário Internacional (FMI), Kristalina Georgieva, quer que o euro desempenhe um papel maior na economia global, particularmente como moeda de reserva e uma ferramenta para melhorar a resiliência econômica da Europa. A diretora -gerente Kristalina Georgieva esteve em Luxemburgo na quinta -feira, onde fez comentários na reunião do Eurogroup sobre o aumento da competitividade e […]
placeholder
Xao Dao está definido para trazer governança descentralizada para XRP LedgerXao Dao anunciou planos de lançar a primeira organização autônoma descentralizada (DAO) no Ledger XRP . A empresa de responsabilidade limitada baseada em Wyoming (LLC) divulgou isso em X, observando que trará uma nova era de inovação descentralizada. De acordo com o anúncio, Xao Dao é um mecanismo de governança de próxima geração para a rede XRPL que […]
Autor  Cryptopolitan
Ontem 02: 12
Xao Dao anunciou planos de lançar a primeira organização autônoma descentralizada (DAO) no Ledger XRP . A empresa de responsabilidade limitada baseada em Wyoming (LLC) divulgou isso em X, observando que trará uma nova era de inovação descentralizada. De acordo com o anúncio, Xao Dao é um mecanismo de governança de próxima geração para a rede XRPL que […]
placeholder
Fed e BCE estão perdendo o controle à medida que os preços do petróleo surgem e Trump se move em direção à guerra com o IrãO Federal Reserve e o Banco Central Europeu estão perdendo o controle sobre a política monetária, à medida que os preços do petróleo disparam edent Donald Trump se aproxima dos EUA da guerra com o Irã. O que costumava ser claro decisões dos bancos centrais agora está ofuscado pela política, inflação e uma estrutura em colapso das regras econômicas. Os mercados não [...]
Autor  Cryptopolitan
Ontem 02: 11
O Federal Reserve e o Banco Central Europeu estão perdendo o controle sobre a política monetária, à medida que os preços do petróleo disparam edent Donald Trump se aproxima dos EUA da guerra com o Irã. O que costumava ser claro decisões dos bancos centrais agora está ofuscado pela política, inflação e uma estrutura em colapso das regras econômicas. Os mercados não [...]
placeholder
UE define a visão no império de Musk sobre a aquisição X por XaiElon Musk pode estar enfrentando bilhões em multas dos reguladores da UE após a aquisição de X por sua startup de IA, Xai. As empresas de Musk se fundiram após uma aquisição de US $ 33 bilhões da plataforma de mídia social, X, pela startup de IA do bilionário, XAI. A medida desenhou um novo escrutínio regulatório da União Europeia, e poderia ter […]
Autor  Cryptopolitan
Ontem 02: 09
Elon Musk pode estar enfrentando bilhões em multas dos reguladores da UE após a aquisição de X por sua startup de IA, Xai. As empresas de Musk se fundiram após uma aquisição de US $ 33 bilhões da plataforma de mídia social, X, pela startup de IA do bilionário, XAI. A medida desenhou um novo escrutínio regulatório da União Europeia, e poderia ter […]
goTop
quote