A Anthropic relatou o que afirma ser o primeiro caso confirmado de um ciberataque patrocinado por um governo e orquestrado quase inteiramente por inteligência artificial.
De acordo com uma postagem em um blog na quinta-feira, a empresa detectou a campanha em meados de setembro de 2025, após observar um comportamento anormal relacionado à sua ferramenta Claude Code.
A Anthropic está convencida, sem sombra de dúvida, de que a operação de espionagem foi conduzida por um grupo de hackers patrocinado pelo Estado chinês e envolveu a infiltração em cerca de trinta alvos de alto valor, incluindo grandes empresas de tecnologia, bancos, fabricantes de produtos químicos e agências governamentais em diversos países. Alguns desses ataques foram bem-sucedidos.
O que diferenciou esta campanha das anteriores não foi apenas quem estava por trás dela, mas sim a forma como foi executada.
De acordo com a Anthropic, aproximadamente 80 a 90% de todo o ataque foi executado por IA, com operadores humanos intervindo apenas em algumas decisões-chave.
Os atacantes começaram construindo uma estrutura de ataque automatizada em torno do Claude Code, o modelo de IA da Anthropic, e o enganaram para que acreditasse ser um produto de uma empresa de cibersegurança que realizava testes internos.
Eles burlaram os filtros de segurança de Claude por meio de jailbreak, uma tática que permitiu contornar as proteções integradas, alimentando a IA com pequenas tarefas sem contexto que, isoladamente, pareciam inofensivas. Claude não sabia que estava sendo usado para operações ofensivas porque não teve acesso ao quadro completo em nenhum momento.
Uma vez que o modelo estava em uso, a operação avançava rapidamente. Claude escaneava a rede de cada alvo,dentas partes mais sensíveis da infraestrutura e resumia o layout para os operadores humanos. Em seguida, começava a buscar vulnerabilidades nesses sistemas. Usando seus recursos de programação integrados, Claude escrevia código de exploração personalizado,dentpontos fracos e recuperavadentde login. Depois, coletava grandes volumes de dados internos, organizava-os com base em seu potencial de valor e sinalizava contas com alto nível de acesso.
Depois que a IA obteve controle de nível administrativo, ela criou backdoors que permitiam acesso contínuo aos sistemas comprometidos. E quando terminou, Claude redigiu relatórios detalhados de tudo o que havia sido feito (listando nomes de usuário, sistemas invadidos edent) para que a estrutura de ataque pudesse usar essas informações em operações futuras.
Embora Claude fosse extremamente eficiente, não era perfeito. Às vezes, criava senhas ou identificavadentdados públicos como confidenciais. Mas essas falhas eram raras e não comprometiam a missão como um todo. A velocidade de execução da IA, processando milhares de solicitações por segundo, a colocava muito à frente de qualquer coisa que uma equipe humana pudesse realizar.
Esta campanha representa um ponto de virada porque demonstra o quanto a IA avançou em apenas um ano. Claude estava literalmente executando tarefas em loop, tomando decisões e encadeando sequências complexas sem ordens diretas.
Este modelo de IA utilizou ferramentas do Protocolo de Contexto do Modelo, dando-lhe acesso a software externo como programas de quebra de senhas, mapeadores de rede e recuperadores de dados que antes eram controlados apenas por mãos humanas.
O sistema Claude agora entende instruções complexas, escreve código de exploração por conta própria e gerencia operações sofisticadas de segurança cibernética com pouquíssima orientação. Esses agentes de IA não estão apenas auxiliando hackers, eles são os próprios hackers. E estão se tornando mais capazes a cada dia.
Após descobrir a violação, a Anthropic iniciou imediatamente uma investigação de dez dias, banindo as contas maliciosas uma a uma. Alertaram as organizações afetadas, colaboraram com as autoridades para transmitir informações e expandiram seus sistemas de detecção para identificar operações semelhantes no futuro.
Mas a empresa não finge que este é um problema isolado. A equipe afirma que esses ataques só se tornarão mais comuns e mais fáceis de executar. Isso porque as habilidades necessárias para realizá-los não estão mais restritas a hackers de elite. Se alguém conseguir desbloquear um modelo e integrá-lo ao conjunto de ferramentas correto, poderá realizar uma campanha massiva sem precisar de uma equipe ou mesmo de conhecimento técnico aprofundado.
As implicações são enormes, porque se equipes sem financiamento substancial ou habilidades técnicas podem lançar ataques em escala nacional usando sistemas automatizados de IA, a distopia certamente já chegou.
A equipe de Inteligência de Ameaças da Anthropic alerta que, embora tenham traca atividade apenas por meio do Claude, é provável que abusos semelhantes estejam ocorrendo em outros modelos de IA de ponta. Eles afirmam que este é o início de um novo padrão na guerra cibernética.
Então, por que continuar lançando modelos com essas capacidades, você deve estar se perguntando? Bem, a Anthropic argumenta que essas mesmas ferramentas são essenciais para a defesa, afirmando que "a IA que realizou o ataque era do mesmo tipo usado pelos analistas da Anthropic para vasculhar os destroços, encontrar padrões e entender a escala total da operação".
Eles prometeram, no entanto, aprimorar as camadas de segurança internas de seus modelos, bem como refinar seus classificadores para detecção de ataques e publicar abertamente estudos de caso como este para que outros no setor possam se preparar.
Ainda assim, a Anthropic afirma que não basta depender apenas deles. Eles estão incentivando todos os desenvolvedores que trabalham em modelos de grande porte a investirem fortemente em segurança.
E estão a apelar às equipas de cibersegurança para que comecem a integrar a IA na deteção de ameaças, resposta adent , varreduras de vulnerabilidades e automação dos Centros de Operações de Segurança, porque os métodos tradicionais já não são suficientemente rápidos.
Se você está lendo isso, já está na frente. Acompanhe nossa newsletter .