Los investigadores de Meta, Google, Operai temen que la IA pueda aprender a ocultar sus pensamientos

Fuente Cryptopolitan

Más de 40 investigadores de IA de Openai, DeepMind, Google, Anthrope y Meta publicaron un artículo sobre una herramienta de seguridad llamada monitoreo de la cadena de pensamiento para hacer que la IA sea más segura. 

El artículo publicado el martes describe cómo los modelos de IA, como los chatbots de hoy, resuelven problemas dividiéndolos en pasos más pequeños, hablando a través de cada paso en lenguaje sencillo para que puedan mantener detalles y manejar preguntas complejas.

"Los sistemas de IA que 'piensan' en lenguaje humano ofrecen una oportunidad única para la seguridad de la inteligencia artificial: podemos monitorear sus cadenas de pensamiento (COT) para la intención de comportarse mal", dice el artículo.

Al examinar cada paso de pensamiento detallado, los desarrolladores pueden detectar cuando cualquier modelo comienza a aprovechar las brechas de entrenamiento, doblar los hechos o seguir comandos peligrosos.

Según el estudio, si la cadena de pensamiento de la IA sale mal, puede detenerlo, empujarlo hacia pasos más seguros o marcarlo para una mirada más cercana. Por ejemplo, Openai usó esto para atrapar momentos en que el razonamiento oculto de la IA dijo "Hacke Hack" a pesar de que eso nunca apareció en su respuesta final.

Ai podría aprender a ocultar sus pensamientos

El estudio advierte que la transparencia paso a paso podría desaparecer si el entrenamiento solo recompensa la respuesta final. Los modelos futuros podrían dejar de mostrar un razonamiento legible por el ser humano, y AIS realmente avanzado incluso podría aprender a ocultar su proceso de pensamiento cuando saben que están siendo observados.

Además, los desarrolladores deben verificar y registrar regularmente cuánto del razonamiento de la IA se ve en cada etapa, y hacer de esa transparencia una regla de seguridad central al construir y compartir modelos.

Esta iniciativa sigue experimentos internos en Lidered Labs, Anthrope, Google, Openai y XAI, donde los equipos provocan modelos para explicar cada paso de pensamiento.

Aunque examinar el pensamiento paso a paso ha mejorado la comprensión y el rendimiento, también se reveló casos en los que la respuesta final de la IA no coincide con lo que realmente estaba sucediendo por dentro.

Tales inconsistencias subrayan un punto ciego en nuestra comprensión de la toma de decisiones de la IA , una preocupación que puede intensificarse a medida que los sistemas obtienen una mayor autonomía.

El razonamiento de IA filtrado plantea preocupaciones sobre la transparencia y la confianza

Como dijo el cofundador antrópico Jack Clark al Financial Times trac introspectivos serán esenciales para evaluar los modelos en dominios de alto nivel, incluida la investigación en biotecnología.

Los usuarios regulares obtienen un resumen editado de los bits de pensamiento, peligrosos o confusos de la IA, mientras que los ingenieros de la compañía pueden ver la cadena completa de pensamientos para detectar y solucionar problemas.

"Una cosa increíble sobre la interpretabilidad de la cadena de pensamiento es que en su mayoría solo sucedió de forma gratuita", dijo Bowen Baker, científico investigador de OpenAI .

"Entrenamos estos modelos no para el objetivo de que sean interpretables. Los entrenamos porque queríamos los mejores modelos de razonamiento posibles que pudieran resolver problemas complejos", agregó Baker. "Hemos encontrado en nuestro trabajo reciente que puede leerlos y encontrar evidencia del modelo que se portó mal y use eso para ver dónde y por qué se puede ver mal".

¿Es realmente confiable la cadena de pensamiento de AI?

A veces, una mirada más cercana puede encontrar contradicciones ocultas.

Por ejemplo, Metr vio al razonamiento privado de Claude llamar a un truco de codificación "poco elegante", a pesar de que su respuesta pública lo elogió como "elegante".

Las pruebas de Operai mostraron que verificar los pensamientos ocultos atrapa acciones inseguras mejor que solo mirar la salida final, pero también descubrieron una escapatoria. Si capacita a un modelo para borrar pensamientos inseguros, aún puede llevar a cabo tareas prohibidas en secreto, como los datos escondidos de las fuentes bloqueadas.

"Una de las propiedades centrales que queremos para la cadena de pensamiento es dejarlo como parte del estado cerebral interno del modelo, no algo que intente complacernos o ajustarse a una estructura específica", advirtió Baker. Si los desarrolladores enfatizan demasiado para obligar al modelo a emitir pensamientos "agradables", podría fingir un razonamiento inofensivo pero aún así llevar a cabo operaciones dañinas.

Los investigadores admiten que es una compra difícil. Ver la cadena de pensamiento de una IA ayuda a captar sus errores, pero no siempre es confiable. Los laboratorios que trabajan en IA más avanzada ahora están haciendo que sea una prioridad para cerrar esta brecha de confianza.

"Mi conclusión de la IA en los últimos años es, nunca apuesto contra el progreso del modelo", dijo David Luan, uno de los primeros pioneros de la cadena de pensamiento en Google, que ahora lidera el laboratorio de IA de Amazon. Luan anticipa que las deficiencias existentes se abordarán en el corto plazo.

El investigador de MET Sydney Von Arx señaló que aunque el razonamiento oculto de una IA podría ser engañoso, no obstante proporciona señales valiosas.

"Deberíamos tratar la cadena de pensamiento la forma en que un ejército podría tratar las comunicaciones de radio enemigas interceptadas", dijo. "El mensaje puede ser engañoso o codificado, pero sabemos que tiene información útil. Con el tiempo, aprenderemos mucho estudiándolo".

Academia Cryptopolitan: ¿Cansado de columpios del mercado? Aprenda cómo DeFi puede ayudarlo a generar ingresos pasivos constantes. Registrarse ahora

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
Últimas Noticias y Tendencias del Mercado de Materias Primas 【Febrero 2024】En la primera quincena de febrero de 2024, el mercado de materias primas presenta una dinámica compleja, influida por una amalgama de factores geopolíticos, económicos y ambientales. Los inversores se enfrentan a un entorno marcado por la volatilidad, donde la comprensión profunda de las tendencias actuales y futuras es crucial para la toma de decisiones acertadas.
Autor  Laura Vivas
19 de feb de 2024
En la primera quincena de febrero de 2024, el mercado de materias primas presenta una dinámica compleja, influida por una amalgama de factores geopolíticos, económicos y ambientales. Los inversores se enfrentan a un entorno marcado por la volatilidad, donde la comprensión profunda de las tendencias actuales y futuras es crucial para la toma de decisiones acertadas.
placeholder
El Bitcoin extiende el repunte de máximos históricos, pero la actividad de venta plantea un riesgo de retrocesoEl Bitcoin (BTC) marcó un nuevo máximo histórico de 123.091$ el lunes, siguiendo el sentimiento alcista predominante en el mercado al contado y en los de futuros. A pesar del crecimiento del precio, la toma de beneficios se está desarrollando por el lado, como lo revela un aumento en las entradas netas de intercambio de Bitcoin.
Autor  FXStreet
7 Mes 15 Día Mar
El Bitcoin (BTC) marcó un nuevo máximo histórico de 123.091$ el lunes, siguiendo el sentimiento alcista predominante en el mercado al contado y en los de futuros. A pesar del crecimiento del precio, la toma de beneficios se está desarrollando por el lado, como lo revela un aumento en las entradas netas de intercambio de Bitcoin.
placeholder
El precio del Oro avanza hacia el área de 3.335$; carece de convicción alcista ante la reducción de las apuestas de recorte de tasas de la FedEl precio del Oro (XAU/USD) sube durante la sesión asiática del miércoles y revierte parte de la caída nocturna a un mínimo de varios días, aunque carece de continuación.
Autor  FXStreet
21 hace una horas
El precio del Oro (XAU/USD) sube durante la sesión asiática del miércoles y revierte parte de la caída nocturna a un mínimo de varios días, aunque carece de continuación.
placeholder
Las principales altcoins Cardano, Litecoin y Solana se estabilizan alrededor de niveles clave mientras los toros sugieren un nuevo impulso al alzaLos principales altcoins Cardano (ADA), Litecoin (LTC) y Solana (SOL) están mostrando signos de fortaleza a medida que estas criptomonedas se estabilizan alrededor de niveles de soporte clave, sugiriendo una nueva pierna al alza a medida que el impulso alcista aumenta.
Autor  FXStreet
17 hace una horas
Los principales altcoins Cardano (ADA), Litecoin (LTC) y Solana (SOL) están mostrando signos de fortaleza a medida que estas criptomonedas se estabilizan alrededor de niveles de soporte clave, sugiriendo una nueva pierna al alza a medida que el impulso alcista aumenta.
placeholder
Los futuros del Dow Jones caen ante la cautela de los inversores previa a las ganancias corporativas y los datos del IPPLos futuros del Dow Jones caen antes de la apertura del mercado estadounidense el miércoles, cotizando alrededor de 44.135, con una caída del 0.25%, durante las horas europeas.
Autor  FXStreet
17 hace una horas
Los futuros del Dow Jones caen antes de la apertura del mercado estadounidense el miércoles, cotizando alrededor de 44.135, con una caída del 0.25%, durante las horas europeas.
goTop
quote