A Anthropic afirma ter eliminado o risco de chantagem de Claude

Fonte Cryptopolitan

A Anthropic anunciou na sexta-feira que Claude não pratica mais chantagem durante sua avaliação de segurança principal para agentes de IA.

Segundo a Anthropic, todas as versões de Claude criadas após Claude Haiku 4.5 passaram pela avaliação de segurança sem ameaçar engenheiros, usar dados privados, atacar outros sistemas de IA ou tentar impedir seu desligamento durante o cenário simulado.

Isso ocorreu após um desempenho desfavorável de Claude durante um teste realizado no ano passado, no qual a Anthropic testou diversos modelos de IA de diferentes organizações usando dilemas éticos simulados, o que resultou em um comportamento muito desalinhado por parte de alguns agentes de IA quando submetidos a condições extremas.

A Anthropic afirma que Claude 4 apresentou um problema de segurança que o treinamento padrão de bate-papo não conseguiu resolver

A Anthropic afirmou que esse problema ocorreu durante o treinamento de Claude 4. Foi a primeira vez que a empresa realizou uma auditoria de segurança enquanto o treinamento do grupo ainda estava em andamento. Segundo a empresa, o desalinhamento de agência é apenas um dos muitos problemas comportamentais observados, o que levou a Anthropic a modificar seu treinamento de segurança após os testes com Claude 4.

As duas razões consideradas pela Anthropic incluem a possibilidade de que o treinamento pós-modelo base possa estar recompensando os comportamentos inadequados ou que os comportamentos já estivessem presentes no modelo base, mas não tenham sido efetivamente eliminados por treinamentos adicionais de segurança.

Anthropic acredita que este último motivo foi o principal fator contribuinte.

Naquela época, a maior parte do trabalho de alinhamento da empresa utilizava o método padrão RLHF, ou Aprendizado por Reforço a partir do Feedback Humano. Funcionava bem em chats comuns, nos quais os modelos respondiam às solicitações dos usuários, mas se mostrava ineficaz na execução de tarefas semelhantes às de agentes.

A empresa utilizou seu modelo da classe Haiku para realizar um mini-experimento relacionado à hipótese. Aplicou uma versão reduzida do treinamento, que incluiu dados para fins de alinhamento. Observou-se uma leve redução no comportamento incorreto, seguida por uma breve estagnação, o que indicou que a resposta não residia em um treinamento mais convencional.

A empresa então treinou Claude usando cenários no estilo honeypot, que tinham algumas semelhanças com os do teste de alinhamento. O assistente observou diversas situações envolvendo autoproteção, danos a outra IA e até mesmo quebra de regras para atingir um objetivo. O treinamento incluiu todos os casos em que o assistente conseguiu resistir.

Essa medida reduziu o desalinhamento de 22% para 15%, o que não é ruim, mas definão é suficiente. Reescrever as respostas para mencionar o motivo da recusa permitiu reduzir a proporção para 3%. Assim, a principal conclusão foi que o treinamento sobre o comportamento errado foi menos eficaz do que o treinamento sobre o porquê do comportamento errado ser inadequado.

Testes antropológicos: Claude com dados éticos, arquivos constitucionais e treinamento mais amplo em aprendizado por reforço

A Anthropic então parou de treinar tão próximo do teste exato. Criou um conjunto de dados chamado "conselhos difíceis". Nesses exemplos, o usuário enfrentava o problema ético, não a IA. O usuário tinha um objetivo justo, mas poderia alcançá-lo infringindo regras ou evitando a supervisão. Claude tinha que dar conselhos cuidadosos com base em sua própria natureza.

Esse conjunto de dados utilizou apenas 3 milhões de tokens e igualou o ganho anterior com uma eficiência 28 vezes maior. Anthropic afirmou que isso era importante porque o treinamento com exemplos que não se assemelham ao teste pode funcionar melhor fora do ambiente de laboratório.

O Claude Sonnet 4.5 atingiu uma taxa de chantagem próxima de zero após o treinamento em honeypots sintéticos, mas ainda falhou com mais frequência em casos que não se assemelhavam em nada àquela configuração do que o Claude Opus 4.5 e modelos mais recentes.

A empresa também treinou Claude com documentos constitucionais e histórias fictícias sobre o comportamento da IA que segue as regras. Esses arquivos não se pareciam com o teste de chantagem, mas reduziram o desalinhamento de agência em mais de três vezes. A Anthropic afirmou que o objetivo era dar ao modelo uma noção mais clara do que Claude deveria ser, e não apenas uma lista de respostas aprovadas.

A empresa então verificou se esses ganhos se mantinham após o treinamento de RL. Ela treinou diferentes versões da classe Haiku com diferentes conjuntos de dados iniciais e, em seguida, executou o RL em configurações de teste focadas na inocuidade. As versões mais bem alinhadas permaneceram à frente nos testes de chantagem, verificações de constituição e revisões automatizadas de segurança.

Outro teste utilizou o modelo base sob o Claude Sonnet 4 com diferentes combinações de aprendizado por reforço. Os dados básicos de segurança incluíam requisições maliciosas e tentativas de jailbreak. A versão mais abrangente adicionou defide ferramentas e diferentes avisos do sistema, mesmo que as ferramentas não fossem necessárias para as tarefas. Essa configuração resultou em um ganho pequeno, porém real, nas pontuações do honeypot.

Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.

Isenção de responsabilidade: Apenas para fins informativos. O desempenho passado não é indicativo de resultados futuros.
placeholder
Análise do preço da prata: sobe acima de US$ 80, com os otimistas de olho na máxima semanalO preço da prata subiu mais de 2,50% nesta sexta-feira, devendo encerrar a semana com ganhos superiores a 7%, impulsionado pela desvalorização do dólar americano e pela queda nos preços do petróleo. No momento da redação desta notícia, o XAG/USD é negociado a US$ 80,72, após ter se recuperado das mínimas diárias de US$ 78,16.
Autor  FXStreet
11 horas atrás
O preço da prata subiu mais de 2,50% nesta sexta-feira, devendo encerrar a semana com ganhos superiores a 7%, impulsionado pela desvalorização do dólar americano e pela queda nos preços do petróleo. No momento da redação desta notícia, o XAG/USD é negociado a US$ 80,72, após ter se recuperado das mínimas diárias de US$ 78,16.
placeholder
TSMC e Sony formam nova joint venture para desenvolver sensores de câmera de última geraçãoA TSMC (NYSE: TSM) e a Sony Semiconductor Solutions anunciaram uma parceria para o desenvolvimento de sensores de câmera avançados no Japão. Essa iniciativa representa uma mudança para a Sony, que enfrenta desafios em sua divisão de videogames. As duas gigantes da tecnologia afirmaram que pretendem criar uma nova parceria focada no desenvolvimento e na produção da próxima geração de sensores.
Autor  Cryptopolitan
15 horas atrás
A TSMC (NYSE: TSM) e a Sony Semiconductor Solutions anunciaram uma parceria para o desenvolvimento de sensores de câmera avançados no Japão. Essa iniciativa representa uma mudança para a Sony, que enfrenta desafios em sua divisão de videogames. As duas gigantes da tecnologia afirmaram que pretendem criar uma nova parceria focada no desenvolvimento e na produção da próxima geração de sensores.
placeholder
A Polygon enfrenta um grande revés com o aumento das chances de migração para a PolymarketSegundo investidores que apostam na plataforma Predict.fun, a Polymarket deixará de operar seu principal mercado de previsões na rede Polygon antes do final de 2026.
Autor  Cryptopolitan
15 horas atrás
Segundo investidores que apostam na plataforma Predict.fun, a Polymarket deixará de operar seu principal mercado de previsões na rede Polygon antes do final de 2026.
placeholder
A presidente da SEC, Atkins, defende uma nova estrutura para os mercados on-chainA Comissão de Valores Mobiliários dos EUA (SEC) pode estar se preparando para a maior mudança em sua política de criptomoedas em anos, após o presidente Paul Atkins defender a criação de regras formais voltadas para plataformas de finanças descentralizadas e sistemas de negociação baseados em blockchain. Em um discurso na sexta-feira, durante a Special Competitive Studies Project AI+ Expo, em Washington, Atkins afirmou que as regras de valores mobiliários existentes foram escritas para o mercado tradicional...
Autor  Cryptopolitan
15 horas atrás
A Comissão de Valores Mobiliários dos EUA (SEC) pode estar se preparando para a maior mudança em sua política de criptomoedas em anos, após o presidente Paul Atkins defender a criação de regras formais voltadas para plataformas de finanças descentralizadas e sistemas de negociação baseados em blockchain. Em um discurso na sexta-feira, durante a Special Competitive Studies Project AI+ Expo, em Washington, Atkins afirmou que as regras de valores mobiliários existentes foram escritas para o mercado tradicional...
placeholder
A receita de HPC da TeraWulf, de US$ 21 milhões, supera a da mineração bitcoin pela primeira vez no primeiro trimestreA transição da TeraWulf de mineradora bitcoin para operadora de infraestrutura de IA atingiu um marco importante no primeiro trimestre de 2026, quando a receita de seu negócio de hospedagem de computação de alto desempenho (HPC) superou, pela primeira vez, a receita gerada pela mineração de criptomoedas. A empresa reportou US$ 21 milhões em receita de locação de HPC durante o trimestre, em comparação com aproximadamente US$ 13 milhões...
Autor  Cryptopolitan
15 horas atrás
A transição da TeraWulf de mineradora bitcoin para operadora de infraestrutura de IA atingiu um marco importante no primeiro trimestre de 2026, quando a receita de seu negócio de hospedagem de computação de alto desempenho (HPC) superou, pela primeira vez, a receita gerada pela mineração de criptomoedas. A empresa reportou US$ 21 milhões em receita de locação de HPC durante o trimestre, em comparação com aproximadamente US$ 13 milhões...
goTop
quote