Anthropic afirma que eliminó el riesgo de chantaje de Claude

Fuente Cryptopolitan

Anthropic anunció el viernes que Claude ya no recurre al chantaje durante su evaluación de seguridad básica para agentes de IA.

Según Anthropic, todas las versiones de Claude creadas después de Claude Haiku 4.5 han superado la evaluación de seguridad sin amenazar a los ingenieros, utilizar datos privados, atacar otros sistemas de IA ni intentar impedir su apagado durante el escenario simulado.

Esto se produce tras un desempeño desfavorable de Claude durante una prueba el año pasado, en la que Anthropic probó varios modelos de IA de diferentes organizaciones utilizando dilemas éticos simulados que dieron como resultado un comportamiento muy desalineado por parte de algunos agentes de IA cuando fueron sometidos a condiciones extremas.

Anthropic afirma que Claude 4 mostró un problema de seguridad que la capacitación habitual en chat no logró solucionar

Anthropic declaró que este problema se produjo durante el entrenamiento de Claude 4. Fue la primera vez que la empresa realizó una auditoría de seguridad mientras el grupo aún estaba en formación. Según la empresa, la falta de alineación de agentes es solo uno de los muchos problemas de comportamiento observados, lo que llevó a Anthropic a modificar su programa de capacitación en seguridad tras las pruebas realizadas con Claude 4.

Las dos razones que baraja Anthropic incluyen la posibilidad de que el entrenamiento posterior al modelo base esté recompensando los comportamientos inapropiados o que dichos comportamientos ya estuvieran presentes en el modelo base, pero no se hubieran eliminado eficazmente con un entrenamiento adicional en materia de seguridad.

Anthropic cree que esta última razón fue la principal contribuyente.

En aquel entonces, la mayor parte del trabajo de alineación de la empresa utilizaba el método estándar RLHF, o Aprendizaje por Refuerzo a partir de la Retroalimentación Humana. Funcionaba bien en chats estándar donde los modelos respondían a las solicitudes de los usuarios, pero resultaba ineficaz al realizar tareas propias de un agente.

La empresa utilizó su modelo de clase Haiku para realizar un miniexperimento sobre la hipótesis. Aplicó una versión abreviada del entrenamiento que incluía datos para fines de alineación. Se observó una ligera reducción del comportamiento erróneo, seguida de una falta de mejora muy pronto, lo que indicaba que la solución no radicaba en un entrenamiento más convencional.

La empresa entrenó a Claude mediante escenarios de trampa, similares a los de la prueba de alineación. El asistente observó diversas situaciones que implicaban protegerse, dañar a otra IA e incluso infringir las reglas para lograr un objetivo. El entrenamiento incluyó todos los casos en los que el asistente logró resistir.

Esta medida redujo la discrepancia del 22% al 15%, lo cual no está mal, pero defino es suficiente. Reescribir las respuestas para mencionar el motivo del rechazo permitió reducir la proporción al 3%. Por lo tanto, la principal conclusión fue que la capacitación sobre el comportamiento incorrecto fue menos efectiva que la capacitación sobre por qué dicho comportamiento era inapropiado.

Anthropic pone a prueba a Claude con datos éticos, archivos constitucionales y una formación más amplia en aprendizaje por refuerzo

Anthropic dejó de entrenar justo antes de la prueba. Creó un conjunto de datos llamado "Consejos difíciles". En esos ejemplos, el usuario se enfrentaba al problema ético, no la IA. El usuario tenía un objetivo justo, pero podía alcanzarlo infringiendo las reglas o evitando la supervisión. Claude debía dar consejos prudentes, de acuerdo con su propia naturaleza.

Ese conjunto de datos utilizó solo 3 millones de tokens y logró una mejora equivalente a la anterior, con una eficiencia 28 veces superior. Anthropic afirmó que esto era importante porque entrenar con ejemplos que no se parecen a los de la prueba puede funcionar mejor fuera del laboratorio.

Claude Sonnet 4.5 alcanzó una tasa de chantaje casi nula después de entrenarse con honeypots sintéticos, pero aún así fallaba con más frecuencia en casos que no se parecían en nada a esa configuración que Claude Opus 4.5 y los modelos más recientes.

La empresa también entrenó a Claude con documentos constitucionales e historias ficticias sobre el comportamiento de la IA que sigue las reglas. Si bien estos archivos no se parecían a la prueba de chantaje, redujeron la desalineación de la agencia en más del triple. Anthropic afirmó que el objetivo era que el modelo comprendiera mejor cómo debía ser Claude, y no solo proporcionarle una lista de respuestas predefinidas.

La empresa comprobó entonces si esas mejoras se mantenían tras el entrenamiento con aprendizaje por refuerzo. Entrenó distintas versiones de la clase Haiku con diferentes conjuntos de datos iniciales y, a continuación, ejecutó el aprendizaje por refuerzo en entornos de prueba centrados en la inocuidad. Las versiones mejor alineadas se mantuvieron a la cabeza en las pruebas de chantaje, las comprobaciones de constitución y las revisiones de seguridad automatizadas.

Otra prueba utilizó el modelo base de Claude Sonnet 4 con diferentes combinaciones de aprendizaje por refuerzo. Los datos básicos de seguridad incluían solicitudes maliciosas e intentos de jailbreak. La versión ampliada añadió defide herramientas y diferentes avisos del sistema, aunque las herramientas no eran necesarias para las tareas. Esta configuración resultó en una pequeña pero significativa mejora en las puntuaciones de honeypot.

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
Las acciones de Nvidia se hunden del 4% cuando los planes de tarifas de Trump sacrifican el comercio de IALas acciones de Nvidia cayeron más del 4% el lunes temprano después de que eldent de los Estados Unidos, Donald Trump, entregó un mensaje severo sobre las tarifas comerciales.
Autor  Cryptopolitan
01 de abr de 2025
Las acciones de Nvidia cayeron más del 4% el lunes temprano después de que eldent de los Estados Unidos, Donald Trump, entregó un mensaje severo sobre las tarifas comerciales.
placeholder
El S&P 500 ignora el recorte crediticio a EE.UU. y se consolida en máximos de diez semanasEl S&P 500 estableció un mínimo del día en 5873, encontrando compradores que llevaron el índice a máximos del 3 de marzo en 5.967.
Autor  FXStreet
20 de may de 2025
El S&P 500 estableció un mínimo del día en 5873, encontrando compradores que llevaron el índice a máximos del 3 de marzo en 5.967.
placeholder
El EUR/USD se mantiene alrededor de 1.1400, con la mirada puesta en las conversaciones comerciales entre EE.UU. y ChinaEl EUR/USD se mantiene estable tras registrar pérdidas en la sesión anterior, cotizando alrededor de 1.1400 durante las horas asiáticas del lunes.
Autor  FXStreet
09 de jun de 2025
El EUR/USD se mantiene estable tras registrar pérdidas en la sesión anterior, cotizando alrededor de 1.1400 durante las horas asiáticas del lunes.
placeholder
WTI sube ligeramente por encima de 89.00$ mientras EE.UU. realiza nuevos ataques en IránWest Texas Intermediate (WTI), el referente del crudo estadounidense, cotiza alrededor de 89.35$ durante las primeras horas de negociación asiáticas del jueves. El precio del WTI recupera algo del terreno perdido en medio de las renovadas tensiones entre EE.UU. e Irán
Autor  FXStreet
5 Mes 28 Día Jue
West Texas Intermediate (WTI), el referente del crudo estadounidense, cotiza alrededor de 89.35$ durante las primeras horas de negociación asiáticas del jueves. El precio del WTI recupera algo del terreno perdido en medio de las renovadas tensiones entre EE.UU. e Irán
placeholder
Resumen del mercado de hoy: Un acuerdo de paz impulsa las acciones de EE. UU. a récords; Snowflake sube un 36%, Dell se dispara un 40% after hoursSeguimiento de la tendencia del mercadoTradingKey - Las acciones estadounidenses subieron ligeramente el jueves, y los tres principales índices alcanzaron máximos históricos, impulsados por las notici
Autor  TradingKey
El dia de ayer 02: 02
Seguimiento de la tendencia del mercadoTradingKey - Las acciones estadounidenses subieron ligeramente el jueves, y los tres principales índices alcanzaron máximos históricos, impulsados por las notici
goTop
quote