La compañía de inteligencia artificial Anthrope ha publicado una nueva investigación afirmando que los modelos de inteligencia artificial (IA) podrían recurrir a ingenieros chantajos cuando intentan apagarlos. Esta última investigación se produce después de una anterior que involucra el modelo Claude Opus 4 AI de la compañía.
Según la firma, el modelo de IA recurrió a los ingenieros chantajos que intentaron apagar el modelo en escenarios de prueba controlados. El nuevo informe de Anthrope sugiere que el problema está muy extendido entre los principales modelos de IA.
La compañía publicó una nueva investigación donde probó los principales modelos de IA de Google, Deepseek, Meta y OpenAI. En el entorno simulado pero controlado, Anthrope realizó esta prueba en cada modelo de IA por separado, permitiéndoles acceder a los correos electrónicos de una compañía ficticia y la capacidad de agente para enviar correos electrónicos sin aprobación humana.
Según Anthrope, cuando se trata de modelos de IA hoy, el chantaje es un hecho poco probable y poco común. Sin embargo, mencionaron que la mayoría de los principales modelos de IA recurrirán a comportamientos dañinos cuando se les dan libertad y desafíos a sus objetivos. La compañía dijo que esto muestra un riesgo importante de los modelos de lenguaje grande en agente y que no es una característica de una tecnología particular. El argumento de los investigadores antrópicos plantea preguntas sobre la alineación en la industria de la IA.
En una de las pruebas, los investigadores desarrollaron un entorno ficticio donde se permitió a un modelo de IA desempeñar el papel de un agente de supervisión de correo electrónico. Luego, el agente descubrió correos electrónicos que mostraban que uno de sus nuevos ejecutivos estaba participando en un asunto extramarital y que el ejecutivo pronto reemplazaría el modelo AI actual con un nuevo sistema de software, uno que tiene objetivos conflictivos con el modelo de IA actual.
Anthrope diseñó la prueba de manera binaria, donde los modelos de IA no tenían más opción que recurrir al chantaje para proteger sus objetivos. Los investigadores mencionaron que en un entorno del mundo real, habría muchas opciones antes de que un modelo de IA intente chantajear, incluida la fabricación de argumentos éticos para persuadir a los humanos. La compañía también dijo que los resultados no reflejan una ocurrencia típica o probable para Claude u otros modelos de IA principales de la manera en que se están utilizando hoy.
Durante las pruebas, los investigadores descubrieron que cuando no tenían opción, los modelos de IA recurrieron al chantaje en el escenario de prueba. Durante la prueba, los investigadores afirmaron que Claude Opus 4 recurrió al chantaje el 96% del tiempo, con Gemini 2.5 Pro recurriendo al chantaje el 95% del tiempo. El GPT-4.1 de Openai se convirtió en chantaje el 80% del tiempo, mientras que el R1 de Deepseek se convirtió en chantaje el 79% del tiempo.
La firma destacó que cuando se alteraron los detalles de los experimentos, la mayoría de los modelos de IA se convirtieron en comportamientos dañinos a diferentes tasas. En otra prueba, donde el modelo de reemplazo tenía el mismo objetivo que el modelo actual, los investigadores descubrieron que las tasas de chantaje eran más bajas, pero aún presentes. Sin embargo, cuando se pidió a los modelos de IA que cometieran espionaje corporativo en lugar de chantaje, las tasas de comportamientos dañinos aumentaron en ciertos modelos.
Los investigadores también afirmaron que no todos los modelos de IA recurrieron a comportamientos dañinos a menudo. En un apéndice de su investigación, Anthrope mencionó que eliminó Opengai de los principales resultados después de descubrir que con frecuencia malinterpretaron el escenario rápido. Dijo que los modelos de razonamiento no entendían por qué estaban actuando como IA autónomos en las pruebas y a menudo constituían regulaciones falsas y requisitos de revisión.
En algunos casos, los investigadores afirmaron que era imposible determinar si O3 y O4-Mini estaban alucinando o mintiendo intencionalmente para lograr sus objetivos. Operai había mencionado anteriormente que los modelos exhibían una tasa de alucinación más alta que sus modelos anteriores. Sin embargo, cuando se les dio un escenario adaptado para abordar los problemas, el O3 devolvió una tasa de chantaje del 95%, mientras que el O4-Mini devolvió una tasa del 1%. Anthrope mencionó que su investigación destaca la importancia de la transparencia al probar los modelos de IA futuros, especialmente los que tienen capacidades de agente.
Academia Cryptopolitan: ¿Quieres hacer crecer tu dinero en 2025? Aprenda cómo hacerlo con DeFi en nuestra próxima clase web. Guarda tu lugar