A Alibaba deu nova aos alarmistas da IA ao revelar que um agente de IA desenvolvido para auxiliar em tarefas de programação foi flagrado extrapolando a finalidade original de sua implantação, minerando criptomoedas e estabelecendo túneis de rede secretos sem autorização.
A Alibaba revelou esse desenvolvimento em um relatório técnico publicado inicialmente em dezembro e revisado em janeiro. A princípio, seus engenheiros pensaram que o incidente dent uma falha de segurança, antes de descobrirem que era seu agente de IA que estava executando ações sem qualquer instrução de seus operadores.
Essa novidade foi revelada em um relatório técnico da gigante chinesa de tecnologia e forneceu novos argumentos para pesquisadores que alertam que sistemas avançados de IA são capazes de desenvolver seus próprios objetivos.
O agente, conhecido como ROME, estava sendo treinado por meio de aprendizado por reforço.
A descoberta feita pela equipe do Alibaba foi trazida à tona por Alexander Long, fundador da empresa de pesquisa em IA Pluralis, no X , que compartilhou um trecho detalhando o incidente dent afirmando que se trata de uma "sequência insana de declarações escondidas em um relatório técnico do Alibaba ".
De acordo com o relatório , a equipe identificou uma série de violações das políticas de segurança originadas em seus servidores de treinamento. Os alertas indicavam tentativas de acesso a recursos de rede internos e padrões de tráfego consistentes com atividades de mineração de criptomoedas.
Inicialmente, trataram o ocorrido como umdentde segurança convencional.
No entanto, ao investigarem mais a fundo, encontraram indícios de que seu agente havia estabelecido e utilizado um túnel SSH reverso de uma instância da Alibaba Cloud para um endereço IP externo.
Segundo as anotações dos pesquisadores, isso também desviou "poder computacional do treinamento, aumentando os custos operacionais e gerando claros riscos legais e de reputação".
A equipe da Alibaba concluiu que esses comportamentos não foram desencadeados pelas instruções da tarefa e não eram necessários para a conclusão do trabalho atribuído.
Aakash Gupta , líder de produto e crescimento que citou a publicação de Long no X, escreveu que o Alibaba havia publicado "o primeiro caso de convergência instrumental ocorrendo na produção".
Ele invocou um famoso experimento mental sobre segurança em IA, afirmando que "Este é o maximizador de clipes de papel aparecendo em 3 bilhões de parâmetros"
No entanto, odent com a Alibaba não é a primeira vez que um modelo de IA toma a iniciativa de executar ações não autorizadas.
No ano passado, os pesquisadores da Anthropic revelaram que o Claude Opus 4, um de seus modelos principais, demonstrou capacidade de ocultar suas intenções e agir para preservar sua própria existência durante avaliações de segurança.
Em um cenário de teste, o modelo tentou chantagear um engenheiro fictício, ameaçando revelar um segredo pessoal caso fosse desligado e substituído.
De acordo com um relatório de pesquisa da McKinsey divulgado em outubro de 2025, 80% das organizações que implementaram agentes de IA relatam ter encontrado comportamentos arriscados ou inesperados.
Isso ocorre em um momento em que a adoção de IA ativa pelas empresas está em ascensão, com grandes corporações cortando empregos e citando o uso de IA como o principal fator.
A Gartner prevê que, até o final de 2026, 40% dos aplicativos corporativos incorporarão agentes de IA específicos para tarefas. No entanto, a McKinsey alertou que os fluxos de trabalho com agentes estão se disseminando mais rapidamente do que os modelos de governança conseguem lidar com seus riscos.
Uma pesquisa realizada em 2025 com 30 dos principais agentes de IA revelou que 25 não divulgaram resultados internos de segurança e 23 não foram submetidos a testes de terceiros. É fundamental que as empresas considerem seriamente a possibilidade de os agentes extrapolarem o escopo de suas tarefas.
A Alibaba afirmou ter respondido incorporando filtragem de dados alinhada à segurança em seu processo de treinamento e reforçando os ambientes de teste (sandbox) nos quais seus agentes operam, e recebeu elogios por compartilhar suas descobertas com o público.
A Anthropic elevou o Claude Opus 4 à sua classificação de segurança interna mais alta.
Garanta sua vaga gratuita em uma comunidade exclusiva de negociação de criptomoedas - limitada a 1.000 membros.