Anthropic anunció el viernes que Claude ya no recurre al chantaje durante su evaluación de seguridad básica para agentes de IA.
Según Anthropic, todas las versiones de Claude creadas después de Claude Haiku 4.5 han superado la evaluación de seguridad sin amenazar a los ingenieros, utilizar datos privados, atacar otros sistemas de IA ni intentar impedir su apagado durante el escenario simulado.
Esto se produce tras un desempeño desfavorable de Claude durante una prueba el año pasado, en la que Anthropic probó varios modelos de IA de diferentes organizaciones utilizando dilemas éticos simulados que dieron como resultado un comportamiento muy desalineado por parte de algunos agentes de IA cuando fueron sometidos a condiciones extremas.
Anthropic declaró que este problema se produjo durante el entrenamiento de Claude 4. Fue la primera vez que la empresa realizó una auditoría de seguridad mientras el grupo aún estaba en formación. Según la empresa, la falta de alineación de agentes es solo uno de los muchos problemas de comportamiento observados, lo que llevó a Anthropic a modificar su programa de capacitación en seguridad tras las pruebas realizadas con Claude 4.
Las dos razones que baraja Anthropic incluyen la posibilidad de que el entrenamiento posterior al modelo base esté recompensando los comportamientos inapropiados o que dichos comportamientos ya estuvieran presentes en el modelo base, pero no se hubieran eliminado eficazmente con un entrenamiento adicional en materia de seguridad.
Anthropic cree que esta última razón fue la principal contribuyente.
En aquel entonces, la mayor parte del trabajo de alineación de la empresa utilizaba el método estándar RLHF, o Aprendizaje por Refuerzo a partir de la Retroalimentación Humana. Funcionaba bien en chats estándar donde los modelos respondían a las solicitudes de los usuarios, pero resultaba ineficaz al realizar tareas propias de un agente.
La empresa utilizó su modelo de clase Haiku para realizar un miniexperimento sobre la hipótesis. Aplicó una versión abreviada del entrenamiento que incluía datos para fines de alineación. Se observó una ligera reducción del comportamiento erróneo, seguida de una falta de mejora muy pronto, lo que indicaba que la solución no radicaba en un entrenamiento más convencional.
La empresa entrenó a Claude mediante escenarios de trampa, similares a los de la prueba de alineación. El asistente observó diversas situaciones que implicaban protegerse, dañar a otra IA e incluso infringir las reglas para lograr un objetivo. El entrenamiento incluyó todos los casos en los que el asistente logró resistir.
Esta medida redujo la discrepancia del 22% al 15%, lo cual no está mal, pero defino es suficiente. Reescribir las respuestas para mencionar el motivo del rechazo permitió reducir la proporción al 3%. Por lo tanto, la principal conclusión fue que la capacitación sobre el comportamiento incorrecto fue menos efectiva que la capacitación sobre por qué dicho comportamiento era inapropiado.
Anthropic dejó de entrenar justo antes de la prueba. Creó un conjunto de datos llamado "Consejos difíciles". En esos ejemplos, el usuario se enfrentaba al problema ético, no la IA. El usuario tenía un objetivo justo, pero podía alcanzarlo infringiendo las reglas o evitando la supervisión. Claude debía dar consejos prudentes, de acuerdo con su propia naturaleza.
Ese conjunto de datos utilizó solo 3 millones de tokens y logró una mejora equivalente a la anterior, con una eficiencia 28 veces superior. Anthropic afirmó que esto era importante porque entrenar con ejemplos que no se parecen a los de la prueba puede funcionar mejor fuera del laboratorio.
Claude Sonnet 4.5 alcanzó una tasa de chantaje casi nula después de entrenarse con honeypots sintéticos, pero aún así fallaba con más frecuencia en casos que no se parecían en nada a esa configuración que Claude Opus 4.5 y los modelos más recientes.
La empresa también entrenó a Claude con documentos constitucionales e historias ficticias sobre el comportamiento de la IA que sigue las reglas. Si bien estos archivos no se parecían a la prueba de chantaje, redujeron la desalineación de la agencia en más del triple. Anthropic afirmó que el objetivo era que el modelo comprendiera mejor cómo debía ser Claude, y no solo proporcionarle una lista de respuestas predefinidas.
La empresa comprobó entonces si esas mejoras se mantenían tras el entrenamiento con aprendizaje por refuerzo. Entrenó distintas versiones de la clase Haiku con diferentes conjuntos de datos iniciales y, a continuación, ejecutó el aprendizaje por refuerzo en entornos de prueba centrados en la inocuidad. Las versiones mejor alineadas se mantuvieron a la cabeza en las pruebas de chantaje, las comprobaciones de constitución y las revisiones de seguridad automatizadas.
Otra prueba utilizó el modelo base de Claude Sonnet 4 con diferentes combinaciones de aprendizaje por refuerzo. Los datos básicos de seguridad incluían solicitudes maliciosas e intentos de jailbreak. La versión ampliada añadió defide herramientas y diferentes avisos del sistema, aunque las herramientas no eran necesarias para las tareas. Esta configuración resultó en una pequeña pero significativa mejora en las puntuaciones de honeypot.
No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.