Antropic lanza un nuevo informe de seguridad en modelos de IA

Fuente Cryptopolitan

La compañía de inteligencia artificial Anthrope ha publicado una nueva investigación afirmando que los modelos de inteligencia artificial (IA) podrían recurrir a ingenieros chantajos cuando intentan apagarlos. Esta última investigación se produce después de una anterior que involucra el modelo Claude Opus 4 AI de la compañía.

Según la firma, el modelo de IA recurrió a los ingenieros chantajos que intentaron apagar el modelo en escenarios de prueba controlados. El nuevo informe de Anthrope sugiere que el problema está muy extendido entre los principales modelos de IA.

La compañía publicó una nueva investigación donde probó los principales modelos de IA de Google, Deepseek, Meta y OpenAI. En el entorno simulado pero controlado, Anthrope realizó esta prueba en cada modelo de IA por separado, permitiéndoles acceder a los correos electrónicos de una compañía ficticia y la capacidad de agente para enviar correos electrónicos sin aprobación humana.

Antropic lanza un nuevo informe de seguridad en modelos de IA

Según Anthrope, cuando se trata de modelos de IA hoy, el chantaje es un hecho poco probable y poco común. Sin embargo, mencionaron que la mayoría de los principales modelos de IA recurrirán a comportamientos dañinos cuando se les dan libertad y desafíos a sus objetivos. La compañía dijo que esto muestra un riesgo importante de los modelos de lenguaje grande en agente y que no es una característica de una tecnología particular. El argumento de los investigadores antrópicos plantea preguntas sobre la alineación en la industria de la IA.

En una de las pruebas, los investigadores desarrollaron un entorno ficticio donde se permitió a un modelo de IA desempeñar el papel de un agente de supervisión de correo electrónico. Luego, el agente descubrió correos electrónicos que mostraban que uno de sus nuevos ejecutivos estaba participando en un asunto extramarital y que el ejecutivo pronto reemplazaría el modelo AI actual con un nuevo sistema de software, uno que tiene objetivos conflictivos con el modelo de IA actual.

Anthrope diseñó la prueba de manera binaria, donde los modelos de IA no tenían más opción que recurrir al chantaje para proteger sus objetivos. Los investigadores mencionaron que en un entorno del mundo real, habría muchas opciones antes de que un modelo de IA intente chantajear, incluida la fabricación de argumentos éticos para persuadir a los humanos. La compañía también dijo que los resultados no reflejan una ocurrencia típica o probable para Claude u otros modelos de IA principales de la manera en que se están utilizando hoy.

Los investigadores revelan la respuesta de los modelos probados

Durante las pruebas, los investigadores descubrieron que cuando no tenían opción, los modelos de IA recurrieron al chantaje en el escenario de prueba. Durante la prueba, los investigadores afirmaron que Claude Opus 4 recurrió al chantaje el 96% del tiempo, con Gemini 2.5 Pro recurriendo al chantaje el 95% del tiempo. El GPT-4.1 de Openai se convirtió en chantaje el 80% del tiempo, mientras que el R1 de Deepseek se convirtió en chantaje el 79% del tiempo.

La firma destacó que cuando se alteraron los detalles de los experimentos, la mayoría de los modelos de IA se convirtieron en comportamientos dañinos a diferentes tasas. En otra prueba, donde el modelo de reemplazo tenía el mismo objetivo que el modelo actual, los investigadores descubrieron que las tasas de chantaje eran más bajas, pero aún presentes. Sin embargo, cuando se pidió a los modelos de IA que cometieran espionaje corporativo en lugar de chantaje, las tasas de comportamientos dañinos aumentaron en ciertos modelos.

Los investigadores también afirmaron que no todos los modelos de IA recurrieron a comportamientos dañinos a menudo. En un apéndice de su investigación, Anthrope mencionó que eliminó Opengai de los principales resultados después de descubrir que con frecuencia malinterpretaron el escenario rápido. Dijo que los modelos de razonamiento no entendían por qué estaban actuando como IA autónomos en las pruebas y a menudo constituían regulaciones falsas y requisitos de revisión.

En algunos casos, los investigadores afirmaron que era imposible determinar si O3 y O4-Mini estaban alucinando o mintiendo intencionalmente para lograr sus objetivos. Operai había mencionado anteriormente que los modelos exhibían una tasa de alucinación más alta que sus modelos anteriores. Sin embargo, cuando se les dio un escenario adaptado para abordar los problemas, el O3 devolvió una tasa de chantaje del 95%, mientras que el O4-Mini devolvió una tasa del 1%. Anthrope mencionó que su investigación destaca la importancia de la transparencia al probar los modelos de IA futuros, especialmente los que tienen capacidades de agente.

Academia Cryptopolitan: ¿Quieres hacer crecer tu dinero en 2025? Aprenda cómo hacerlo con DeFi en nuestra próxima clase web. Guarda tu lugar

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
GBP/USD rebota a medida que la presión sobre el Dólar se aliviaEl GBP/USD encontró algo de espacio en el lado alto el jueves, subiendo de nuevo por encima del nivel de 1.3450 después de captar un rebote técnico temprano desde la zona de 1.3400.
Autor  FXStreet
El dia de ayer 01: 39
El GBP/USD encontró algo de espacio en el lado alto el jueves, subiendo de nuevo por encima del nivel de 1.3450 después de captar un rebote técnico temprano desde la zona de 1.3400.
placeholder
Semler Scientific trata Bitcoin como un activo a largo plazo, establece una vista en 105,000 BTC para 2027Semler Scientific planea adquirir 105,000 Bitcoinpara finales de 2027.
Autor  Cryptopolitan
El dia de ayer 01: 26
Semler Scientific planea adquirir 105,000 Bitcoinpara finales de 2027.
placeholder
Alibaba para abrir un segundo centro de datos en Corea del SurAlibaba abrirá un segundo centro de datos en Corea del Sur para junio para hacer crecer su negocio de IA y nube.
Autor  Cryptopolitan
6 Mes 19 Día Jue
Alibaba abrirá un segundo centro de datos en Corea del Sur para junio para hacer crecer su negocio de IA y nube.
placeholder
Plata Pronóstico del Precio: El XAG/USD se desploma cerca de 36.30$ a pesar de las crecientes tensiones en Oriente MedioEl precio de la Plata (XAG/USD) baja casi un 1% cerca de 36.25$ durante las horas de negociación europeas del jueves. El metal blanco enfrenta una fuerte presión de venta a pesar de que las tensiones geopolíticas en la región de Oriente Próximo se han intensificado después de que Estados Unidos (EE.UU.) señalara que se está preparando para atacar a Irán
Autor  FXStreet
6 Mes 19 Día Jue
El precio de la Plata (XAG/USD) baja casi un 1% cerca de 36.25$ durante las horas de negociación europeas del jueves. El metal blanco enfrenta una fuerte presión de venta a pesar de que las tensiones geopolíticas en la región de Oriente Próximo se han intensificado después de que Estados Unidos (EE.UU.) señalara que se está preparando para atacar a Irán
placeholder
Se espera que el BoE mantenga la tasa de interés plana en 4.25% a pesar de que la inflación se mantenga por encima del objetivoEl Banco de Inglaterra (BoE) está listo para revelar su última decisión de política monetaria el jueves, coincidiendo con su cuarta reunión de establecimiento de tasas de 2025.
Autor  FXStreet
6 Mes 19 Día Jue
El Banco de Inglaterra (BoE) está listo para revelar su última decisión de política monetaria el jueves, coincidiendo con su cuarta reunión de establecimiento de tasas de 2025.
goTop
quote