O Mitrade Insights dedica-se a fornecer aos investidores informações financeiras ricas, oportunas e valiosas para ajudá-los a entender a situação do mercado e encontrar oportunidades de negociação oportunas.

2021

Melhor Provedor de Notícias e Análise

FxDailyInfo

2022

Melhores Recursos Educacionais de Forex Global

International Business Magazine

Insights

Notícias

Criptomoedas

A Anthropic afirma ter eliminado o risco de chantagem de Claude

Fonte Cryptopolitan

A Anthropic anunciou na sexta-feira que Claude não pratica mais chantagem durante sua avaliação de segurança principal para agentes de IA.

Segundo a Anthropic, todas as versões de Claude criadas após Claude Haiku 4.5 passaram pela avaliação de segurança sem ameaçar engenheiros, usar dados privados, atacar outros sistemas de IA ou tentar impedir seu desligamento durante o cenário simulado.

Isso ocorreu após um desempenho desfavorável de Claude durante um teste realizado no ano passado, no qual a Anthropic testou diversos modelos de IA de diferentes organizações usando dilemas éticos simulados, o que resultou em um comportamento muito desalinhado por parte de alguns agentes de IA quando submetidos a condições extremas.

A Anthropic afirma que Claude 4 apresentou um problema de segurança que o treinamento padrão de bate-papo não conseguiu resolver

A Anthropic afirmou que esse problema ocorreu durante o treinamento de Claude 4. Foi a primeira vez que a empresa realizou uma auditoria de segurança enquanto o treinamento do grupo ainda estava em andamento. Segundo a empresa, o desalinhamento de agência é apenas um dos muitos problemas comportamentais observados, o que levou a Anthropic a modificar seu treinamento de segurança após os testes com Claude 4.

As duas razões consideradas pela Anthropic incluem a possibilidade de que o treinamento pós-modelo base possa estar recompensando os comportamentos inadequados ou que os comportamentos já estivessem presentes no modelo base, mas não tenham sido efetivamente eliminados por treinamentos adicionais de segurança.

Anthropic acredita que este último motivo foi o principal fator contribuinte.

Naquela época, a maior parte do trabalho de alinhamento da empresa utilizava o método padrão RLHF, ou Aprendizado por Reforço a partir do Feedback Humano. Funcionava bem em chats comuns, nos quais os modelos respondiam às solicitações dos usuários, mas se mostrava ineficaz na execução de tarefas semelhantes às de agentes.

A empresa utilizou seu modelo da classe Haiku para realizar um mini-experimento relacionado à hipótese. Aplicou uma versão reduzida do treinamento, que incluiu dados para fins de alinhamento. Observou-se uma leve redução no comportamento incorreto, seguida por uma breve estagnação, o que indicou que a resposta não residia em um treinamento mais convencional.

A empresa então treinou Claude usando cenários no estilo honeypot, que tinham algumas semelhanças com os do teste de alinhamento. O assistente observou diversas situações envolvendo autoproteção, danos a outra IA e até mesmo quebra de regras para atingir um objetivo. O treinamento incluiu todos os casos em que o assistente conseguiu resistir.

Essa medida reduziu o desalinhamento de 22% para 15%, o que não é ruim, mas definão é suficiente. Reescrever as respostas para mencionar o motivo da recusa permitiu reduzir a proporção para 3%. Assim, a principal conclusão foi que o treinamento sobre o comportamento errado foi menos eficaz do que o treinamento sobre o porquê do comportamento errado ser inadequado.

Testes antropológicos: Claude com dados éticos, arquivos constitucionais e treinamento mais amplo em aprendizado por reforço

A Anthropic então parou de treinar tão próximo do teste exato. Criou um conjunto de dados chamado "conselhos difíceis". Nesses exemplos, o usuário enfrentava o problema ético, não a IA. O usuário tinha um objetivo justo, mas poderia alcançá-lo infringindo regras ou evitando a supervisão. Claude tinha que dar conselhos cuidadosos com base em sua própria natureza.

Esse conjunto de dados utilizou apenas 3 milhões de tokens e igualou o ganho anterior com uma eficiência 28 vezes maior. Anthropic afirmou que isso era importante porque o treinamento com exemplos que não se assemelham ao teste pode funcionar melhor fora do ambiente de laboratório.

O Claude Sonnet 4.5 atingiu uma taxa de chantagem próxima de zero após o treinamento em honeypots sintéticos, mas ainda falhou com mais frequência em casos que não se assemelhavam em nada àquela configuração do que o Claude Opus 4.5 e modelos mais recentes.

A empresa também treinou Claude com documentos constitucionais e histórias fictícias sobre o comportamento da IA que segue as regras. Esses arquivos não se pareciam com o teste de chantagem, mas reduziram o desalinhamento de agência em mais de três vezes. A Anthropic afirmou que o objetivo era dar ao modelo uma noção mais clara do que Claude deveria ser, e não apenas uma lista de respostas aprovadas.

A empresa então verificou se esses ganhos se mantinham após o treinamento de RL. Ela treinou diferentes versões da classe Haiku com diferentes conjuntos de dados iniciais e, em seguida, executou o RL em configurações de teste focadas na inocuidade. As versões mais bem alinhadas permaneceram à frente nos testes de chantagem, verificações de constituição e revisões automatizadas de segurança.

Outro teste utilizou o modelo base sob o Claude Sonnet 4 com diferentes combinações de aprendizado por reforço. Os dados básicos de segurança incluíam requisições maliciosas e tentativas de jailbreak. A versão mais abrangente adicionou defide ferramentas e diferentes avisos do sistema, mesmo que as ferramentas não fossem necessárias para as tarefas. Essa configuração resultou em um ganho pequeno, porém real, nas pontuações do honeypot.

Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.

Isenção de responsabilidade: Apenas para fins informativos. O desempenho passado não é indicativo de resultados futuros.

Artigos Recomendados

Fundos HGFF11 e BPFF11 saem da bolsa para serem incorporados pelo RVBI11 do Pátria Os fundos imobiliários Hedge TOP FOFII 3 (HGFF11) e Banrisul Pátria Pactual (BPFF11) deixarão de ser negociados no mercado secundário da B3 após o encerramento do pregão da próxima segunda-feira, 18 de agosto.

Autor Pedro Augusto Prazeres

14 ago. 2025

Os fundos imobiliários Hedge TOP FOFII 3 (HGFF11) e Banrisul Pátria Pactual (BPFF11) deixarão de ser negociados no mercado secundário da B3 após o encerramento do pregão da próxima segunda-feira, 18 de agosto.

Ouro cai abaixo de US$ 4.400; suporte em US$ 4.360 pode definir reação do XAU/USD O ouro caiu abaixo de US$ 4.400 após três sessões de forte queda, mas a aproximação do suporte-chave em US$ 4.360 pode abrir espaço para uma recuperação técnica no curto prazo.

Autor TradingKey

5 Mês 28 Dia Qui

O ouro caiu abaixo de US$ 4.400 após três sessões de forte queda, mas a aproximação do suporte-chave em US$ 4.360 pode abrir espaço para uma recuperação técnica no curto prazo.

Vitalik Buterin relaciona o DeepSeek V4 ao futuro da privacidade do Ethereum Vitalik Buterin relacionou o DeepSeek V4 ao futuro da privacidade do Ethereum, delineando um roteiro que integra modelos de IA locais à camada de acesso do Ethereum.

Autor Cryptopolitan

Ontem 01: 27

Vitalik Buterin relacionou o DeepSeek V4 ao futuro da privacidade do Ethereum, delineando um roteiro que integra modelos de IA locais à camada de acesso do Ethereum.

O ETF Bitcoin da BlackRock registra uma saída de US$ 527 milhões, ficando muito perto de seu pior dia da história Os ETFs Bitcoin Spot registraram oito dias consecutivos de saídas líquidas acumuladas. Até o momento, este mês teve apenas seis dias de entrada positiva, com o total de saídas mensais chegando a -US$ 2,07 bilhões no momento da redação deste texto. Os números não são pequenos. Dados da SoSoValue mostram que o iShares Bitcoin Trust da BlackRock teve uma saída de -US$ 527,84 milhões...

Autor Cryptopolitan

Ontem 01: 35

Os ETFs Bitcoin Spot registraram oito dias consecutivos de saídas líquidas acumuladas. Até o momento, este mês teve apenas seis dias de entrada positiva, com o total de saídas mensais chegando a -US$ 2,07 bilhões no momento da redação deste texto. Os números não são pequenos. Dados da SoSoValue mostram que o iShares Bitcoin Trust da BlackRock teve uma saída de -US$ 527,84 milhões...

O ouro interrompe sua recuperação, já que os sólidos dados de inflação dos EUA reforçam as apostas em um aumento das taxas pelo Fed em meio à incerteza em relação ao Irã O ouro (XAU/USD) tem dificuldade em aproveitar a sólida recuperação do dia anterior, que partiu da faixa de US$ 4.367 a US$ 4.366 — seu nível mais baixo desde 27 de março —, e oscila em uma faixa estreita durante o pregão asiático desta sexta-feira.

Autor FXStreet

Ontem 05: 55

O ouro (XAU/USD) tem dificuldade em aproveitar a sólida recuperação do dia anterior, que partiu da faixa de US$ 4.367 a US$ 4.366 — seu nível mais baixo desde 27 de março —, e oscila em uma faixa estreita durante o pregão asiático desta sexta-feira.

Tipos populares