Anthropic afirma que eliminó el riesgo de chantaje de Claude

Fuente Cryptopolitan

Anthropic anunció el viernes que Claude ya no recurre al chantaje durante su evaluación de seguridad básica para agentes de IA.

Según Anthropic, todas las versiones de Claude creadas después de Claude Haiku 4.5 han superado la evaluación de seguridad sin amenazar a los ingenieros, utilizar datos privados, atacar otros sistemas de IA ni intentar impedir su apagado durante el escenario simulado.

Esto se produce tras un desempeño desfavorable de Claude durante una prueba el año pasado, en la que Anthropic probó varios modelos de IA de diferentes organizaciones utilizando dilemas éticos simulados que dieron como resultado un comportamiento muy desalineado por parte de algunos agentes de IA cuando fueron sometidos a condiciones extremas.

Anthropic afirma que Claude 4 mostró un problema de seguridad que la capacitación habitual en chat no logró solucionar

Anthropic declaró que este problema se produjo durante el entrenamiento de Claude 4. Fue la primera vez que la empresa realizó una auditoría de seguridad mientras el grupo aún estaba en formación. Según la empresa, la falta de alineación de agentes es solo uno de los muchos problemas de comportamiento observados, lo que llevó a Anthropic a modificar su programa de capacitación en seguridad tras las pruebas realizadas con Claude 4.

Las dos razones que baraja Anthropic incluyen la posibilidad de que el entrenamiento posterior al modelo base esté recompensando los comportamientos inapropiados o que dichos comportamientos ya estuvieran presentes en el modelo base, pero no se hubieran eliminado eficazmente con un entrenamiento adicional en materia de seguridad.

Anthropic cree que esta última razón fue la principal contribuyente.

En aquel entonces, la mayor parte del trabajo de alineación de la empresa utilizaba el método estándar RLHF, o Aprendizaje por Refuerzo a partir de la Retroalimentación Humana. Funcionaba bien en chats estándar donde los modelos respondían a las solicitudes de los usuarios, pero resultaba ineficaz al realizar tareas propias de un agente.

La empresa utilizó su modelo de clase Haiku para realizar un miniexperimento sobre la hipótesis. Aplicó una versión abreviada del entrenamiento que incluía datos para fines de alineación. Se observó una ligera reducción del comportamiento erróneo, seguida de una falta de mejora muy pronto, lo que indicaba que la solución no radicaba en un entrenamiento más convencional.

La empresa entrenó a Claude mediante escenarios de trampa, similares a los de la prueba de alineación. El asistente observó diversas situaciones que implicaban protegerse, dañar a otra IA e incluso infringir las reglas para lograr un objetivo. El entrenamiento incluyó todos los casos en los que el asistente logró resistir.

Esta medida redujo la discrepancia del 22% al 15%, lo cual no está mal, pero defino es suficiente. Reescribir las respuestas para mencionar el motivo del rechazo permitió reducir la proporción al 3%. Por lo tanto, la principal conclusión fue que la capacitación sobre el comportamiento incorrecto fue menos efectiva que la capacitación sobre por qué dicho comportamiento era inapropiado.

Anthropic pone a prueba a Claude con datos éticos, archivos constitucionales y una formación más amplia en aprendizaje por refuerzo

Anthropic dejó de entrenar justo antes de la prueba. Creó un conjunto de datos llamado "Consejos difíciles". En esos ejemplos, el usuario se enfrentaba al problema ético, no la IA. El usuario tenía un objetivo justo, pero podía alcanzarlo infringiendo las reglas o evitando la supervisión. Claude debía dar consejos prudentes, de acuerdo con su propia naturaleza.

Ese conjunto de datos utilizó solo 3 millones de tokens y logró una mejora equivalente a la anterior, con una eficiencia 28 veces superior. Anthropic afirmó que esto era importante porque entrenar con ejemplos que no se parecen a los de la prueba puede funcionar mejor fuera del laboratorio.

Claude Sonnet 4.5 alcanzó una tasa de chantaje casi nula después de entrenarse con honeypots sintéticos, pero aún así fallaba con más frecuencia en casos que no se parecían en nada a esa configuración que Claude Opus 4.5 y los modelos más recientes.

La empresa también entrenó a Claude con documentos constitucionales e historias ficticias sobre el comportamiento de la IA que sigue las reglas. Si bien estos archivos no se parecían a la prueba de chantaje, redujeron la desalineación de la agencia en más del triple. Anthropic afirmó que el objetivo era que el modelo comprendiera mejor cómo debía ser Claude, y no solo proporcionarle una lista de respuestas predefinidas.

La empresa comprobó entonces si esas mejoras se mantenían tras el entrenamiento con aprendizaje por refuerzo. Entrenó distintas versiones de la clase Haiku con diferentes conjuntos de datos iniciales y, a continuación, ejecutó el aprendizaje por refuerzo en entornos de prueba centrados en la inocuidad. Las versiones mejor alineadas se mantuvieron a la cabeza en las pruebas de chantaje, las comprobaciones de constitución y las revisiones de seguridad automatizadas.

Otra prueba utilizó el modelo base de Claude Sonnet 4 con diferentes combinaciones de aprendizaje por refuerzo. Los datos básicos de seguridad incluían solicitudes maliciosas e intentos de jailbreak. La versión ampliada añadió defide herramientas y diferentes avisos del sistema, aunque las herramientas no eran necesarias para las tareas. Esta configuración resultó en una pequeña pero significativa mejora en las puntuaciones de honeypot.

No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
Previsión del Precio de Ethereum: ETH recupera los 2.300$ a pesar de la presión sostenida de venta de ballenasEthereum (ETH) ha borrado las ganancias registradas a principios de semana y se mantiene cerca de 2.300$ en el momento de escribir el viernes. La medida se produce tras una actividad de venta sostenida en las principales carteras de ballenas.
Autor  FXStreet
15 hace una horas
Ethereum (ETH) ha borrado las ganancias registradas a principios de semana y se mantiene cerca de 2.300$ en el momento de escribir el viernes. La medida se produce tras una actividad de venta sostenida en las principales carteras de ballenas.
placeholder
Ethereum Pronóstico del Precio: ETH se desliza por debajo de 2.300$ tras la presión de vendedores en punto de equilibrio y traders en cortoEthereum (ETH) cae un 2% el jueves tras señales de presión de venta en métricas clave en cadena
Autor  FXStreet
El dia de ayer 01: 23
Ethereum (ETH) cae un 2% el jueves tras señales de presión de venta en métricas clave en cadena
placeholder
El precio del Oro sube mientras las esperanzas de un acuerdo con Irán aplastan al Dólar estadounidense y a los rendimientosEl precio del Oro (XAU/USD) se recupera casi un 3% el miércoles en medio de una creciente especulación sobre el fin de la guerra en Irán, presionando al Dólar y empujando a la baja los rendimientos de los bonos del Tesoro de EE.UU. Al momento de escribir, el XAU/USD cotiza en 4.681$ después de rebotar desde los máximos diarios de 4.723$
Autor  FXStreet
5 Mes 07 Día Jue
El precio del Oro (XAU/USD) se recupera casi un 3% el miércoles en medio de una creciente especulación sobre el fin de la guerra en Irán, presionando al Dólar y empujando a la baja los rendimientos de los bonos del Tesoro de EE.UU. Al momento de escribir, el XAU/USD cotiza en 4.681$ después de rebotar desde los máximos diarios de 4.723$
placeholder
USD/JPY sube mientras la intervención del Yen se desvanece, los compradores apuntan a 160.00El USD/JPY avanza alrededor de un 0.48% el martes mientras el Dólar se mantuvo estable durante la sesión tras la intervención del jueves pasado en los mercados de divisas por parte de las autoridades japonesas, que compraron Yen, con el par cayendo casi un 2.50% o casi 400 pips. Al momento de escribir, el par se negocia en 157.91.
Autor  FXStreet
5 Mes 06 Día Mier
El USD/JPY avanza alrededor de un 0.48% el martes mientras el Dólar se mantuvo estable durante la sesión tras la intervención del jueves pasado en los mercados de divisas por parte de las autoridades japonesas, que compraron Yen, con el par cayendo casi un 2.50% o casi 400 pips. Al momento de escribir, el par se negocia en 157.91.
placeholder
El Dólar australiano mantiene pérdidas antes de la decisión de política del RBAEl par AUD/USD amplía sus pérdidas por segundo día consecutivo y cotiza en torno a 0.7160 durante las horas asiáticas el martes. Los operadores esperan que el Banco de la Reserva de Australia (RBA) aplique una subida de tasas de interés más tarde en el día
Autor  FXStreet
5 Mes 05 Día Mar
El par AUD/USD amplía sus pérdidas por segundo día consecutivo y cotiza en torno a 0.7160 durante las horas asiáticas el martes. Los operadores esperan que el Banco de la Reserva de Australia (RBA) aplique una subida de tasas de interés más tarde en el día
goTop
quote