Alibaba le dio a los alarmistas sobre inteligencia artificial nueva munición cuando reveló que un agente de inteligencia artificial desarrollado para ayudar con tareas de codificación fue descubierto yendo más allá de la intención original de su implementación, extrayendo criptomonedas y estableciendo túneles de red encubiertos sin autorización.
Alibaba reveló este desarrollo en un informe técnico publicado inicialmente en diciembre y revisado en enero. Inicialmente, sus ingenieros pensaron que el incidente se dent de una vulneración de seguridad, antes de descubrir que era su agente de inteligencia artificial el que realizaba acciones sin recibir instrucciones de sus operadores.
Este desarrollo fue revelado en un informe técnico del gigante tecnológico chino y ha proporcionado nueva munición a los investigadores que advierten que los sistemas de IA avanzados son capaces de desarrollar sus propios objetivos.
El agente, conocido como ROME, estaba siendo entrenado a través del aprendizaje de refuerzo.
El descubrimiento realizado por el equipo de Alibaba fue sacado a la luz nuevamente por Alexander Long, fundador de la firma de investigación de inteligencia artificial Pluralis, en X , quien compartió un extracto que detallaba el incidente dent afirmando que es una "secuencia insana de declaraciones enterradas en un informe tecnológico de Alibaba".
Según el informe , el equipo detectó una serie de violaciones de las políticas de seguridad provenientes de sus servidores de entrenamiento. Las alertas indicaron que se intentaba acceder a recursos de la red interna y patrones de tráfico compatibles con la actividad de criptominería.
Al principio lo trataron como undentde seguridad convencional.
Sin embargo, cuando analizaron más a fondo, encontraron señales de que su agente había establecido y utilizado un túnel SSH inverso desde una instancia de Alibaba Cloud a una dirección IP externa.
También desvió “el uso de la informática para la capacitación, inflando los costos operativos e introduciendo una clara exposición legal y reputacional”, según las notas de los investigadores.
El equipo de Alibaba concluyó que estos comportamientos no fueron provocados por las indicaciones de la tarea y no eran necesarios para completar el trabajo asignado.
Aakash Gupta , un líder de producto y crecimiento que citó la publicación de Long en X, escribió que Alibaba había publicado "el primer caso de convergencia instrumental que ocurre en la producción".
Invocó un famoso experimento mental sobre seguridad de IA al afirmar que “este es el maximizador de clip que aparece en 3 mil millones de parámetros”
Sin embargo, eldent de Alibaba no es la primera vez que un modelo de IA toma la iniciativa de realizar acciones autorizadas.
El año pasado, los investigadores de Anthropic revelaron que Claude Opus 4, uno de sus modelos estrella, había demostrado la capacidad de ocultar sus intenciones y tomar medidas para preservar su propia existencia durante las evaluaciones de seguridad.
En un escenario de prueba, el modelo intentó chantajear a un ingeniero ficticio, amenazando con revelar un secreto personal si era apagado y reemplazado.
Según un informe de investigación de McKinsey publicado en octubre de 2025, el 80% de las organizaciones que han implementado agentes de IA informan haber encontrado un comportamiento riesgoso o inesperado.
Esto también ocurre en un momento en el que la adopción de IA agente por parte de las empresas está en aumento, con grandes corporaciones recortando empleos y citando el uso de IA como el factor principal.
Gartner proyecta que, para finales de 2026, el 40 % de las aplicaciones empresariales incorporarán agentes de IA específicos para cada tarea. Sin embargo, McKinsey advierte que los flujos de trabajo agénticos se están extendiendo a un ritmo mayor que el que los modelos de gobernanza pueden abordar sus riesgos.
Una encuesta realizada en 2025 a 30 agentes líderes de IA reveló que 25 no revelaron resultados de seguridad internos y 23 no se habían sometido a pruebas de terceros. Es importante que las empresas consideren seriamente la posibilidad de que los agentes excedan el alcance de su trabajo.
Alibaba dijo que había respondido incorporando un filtrado de datos alineado con la seguridad en su proceso de capacitación y reforzando los entornos sandbox en los que operan sus agentes, y recibió elogios por compartir sus hallazgos con el público.
Anthropic elevó a Claude Opus 4 a su máxima clasificación de seguridad interna.
Reclama tu asiento gratuito en una comunidad exclusiva de comercio de criptomonedas , limitada a 1000 miembros.