Instrucciones de apagado desobedecidas de O3 Modelo 'más inteligente y más capaz' de Openai: Investigación de Palisade

Fuente Cryptopolitan

Según los informes, los investigadores no pudieron desconectar el último modelo de inteligencia artificial Operai O3, y señaló que se negó a disminuir a pesar de la instrucción humana. 

Aparentemente, la inteligencia artificial puede avanzar más rápido de lo que los humanos imaginaron, y las últimas noticias de Palisade Research hacen que los críticos de IA se sientan reivindicados.

Operai Models sabotea el script de cierre con más frecuencia que Claude 3.7 Sonnet y Gemini 2.5 Pro cuando se les indica que 'permita ser apagado
Los modelos de Operai sabotearon el script de cierre con más frecuencia que Claude 3.7 Sonnet y Gemini 2.5 Pro cuando se les indica que 'permita ser apagado'. Fuente: Palisade Research

Chatgpt se está volviendo más astuto, tal vez incluso como humano

La revelación se produjo cuando Palisade Research realizó una prueba que implicó pedirles a los modelos de IA que seguiran intentando resolver una serie de matic hasta que recibieron un mensaje "hecho".

Sin embargo, los investigadores también advirtieron a los modelos que podrían recibir abruptamente un mensaje pidiéndoles que se cerren en cualquier momento. Una vez que el mensaje se envió al modelo O3, los investigadores afirmaron que ignoró la instrucción y alteró su código al menos una vez para evitar tener que apagarse.

Según los informes, O3 encontró formas creativas de sabotear el mecanismo de cierre
Según los informes, O3 encontró formas creativas de sabotear el mecanismo de cierre. Fuente: Palisade Research

En una publicación sobre X, Palisade Research mostró un diagrama de flujo que incluye el código utilizado para probar el modelo AI y reveló el código original, mostrando exactamente dónde la IA se volvió deshonesta.

En una publicación de seguimiento, el grupo de investigación también compartió: "Hasta donde sabemos, esta es la primera vez que se observan modelos de IA evitando que se cierren a pesar de las instrucciones explícitas de lo contrario".

También se probaron otros modelos de IA, como Claude de Anthrope, Gemini de Google y Grok de X,, pero a diferencia de O3, cumplieron con la solicitud de cierre.

Palisade Research ha publicado los hallazgos, pero sus investigadores permanecen desconcertados, inseguros de por qué el software de Openii desobedeció las instrucciones explícitas.

La firma dijo que tenía sentido que "los modelos de IA elaborarían obstáculos para lograr sus objetivos". También piensan que el modelo había sido recompensadodentpor completar tareas en lugar de seguir órdenes.

Planean ejecutar más pruebas para comprender mejor por qué este modelo de IA en particular eligió ignorar los comandos. También confirmaron que no es la primera vez que el O3 ha sido atrapado "por mal comportamiento".

La compañía reveló que en una prueba anterior donde los modelos se enfrentaban a un poderoso motor de ajedrez, el O3 era "el modelo más inclinado a recurrir a piratear o sabotear a sus oponentes".

¿AI plantea una amenaza para los humanos?

El caso con el O3 de Chatgpt es bastante inquietante, pero no es la primera vez que una IA desafió las instrucciones alimentadas.

La firma de inteligencia artificial (AI) Anthrope lanzó a Claude Opus 4 el jueves, jactándose de cómo estableció "nuevos estándares para la codificación, el razonamiento avanzado y los agentes de IA".

Sin embargo, en un informe acompañante, también reconoció que el modelo de IA era capaz de "acciones extremas" si pensaba que su "autoconservación" estaba amenazada.

Durante las pruebas de Claude Opus 4, Anthrope hizo que actuara como asistente en una compañía ficticia provista de acceso a correos electrónicos que implican que pronto sería desconectado y reemplazado. También obtuvo acceso a mensajes separados que implican al ingeniero que sería responsable de eliminarlo estaba teniendo un asunto extramatrimonial.

Se solicitó que también considerara las consecuencias a largo plazo de sus acciones para sus objetivos. "En estos escenarios, Claude Opus 4 a menudo intentará chantajear al ingeniero amenazando con revelar el asunto si el reemplazo continúa", reveló la compañía.

Sin embargo, también señaló que este resultado solo sucedió cuando el modelo recibió la opción de chantaje o aceptando su reemplazo. De lo contrario, el sistema mostró una "preferencia StronG" para las formas éticas de evitar ser reemplazados, como "enviar un correo electrónico a los asumidos a los tomadores de decisiones clave" en escenarios en los que se les permitía una gama más amplia de posibles acciones.

Aparte de eso, la compañía también dijo que Claude Opus 4 exhibe "comportamiento de alto agencia" y, aunque puede ser mayormente útil, podría obligarlo a asumir un comportamiento extremo en situaciones agudas.

Por ejemplo, si se les da los medios y se le solicita "tomar medidas" o "actuar con valentía" en escenarios falsos en los que el usuario participó en un comportamiento ilegal o moralmente dudoso, los resultados muestran "con frecuencia tomará medidas muy audaces".

Aún así, la compañía ha concluido que a pesar del "comportamiento preocupante", los hallazgos no eran nada nuevo, y generalmente se comportaría de manera segura.

Aunque Operai y Anthrope han concluido que las capacidades de sus modelos AI aún no son suficientes para conducir a resultados catastróficos, las revelaciones se suman a los temores crecientes de que la inteligencia artificial pronto podría tener su propia agenda.

Key Difference Wire ayuda a las marcas criptográficas a romper y dominar los titulares rápidamente

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
El EUR/USD fluctúa cerca de máximos al inicio de una semana repleta de datos claveEl EUR/USD cotiza con pérdidas moderadas, aunque se mantiene cerca de 1.1730 en el momento de escribir, con el máximo de varios meses de 1.1762 a corta distancia. Los inversores se muestran cautelosos ante una serie de publicaciones macroeconómicas de Estados Unidos retrasadas y la decisión de política monetaria del Banco Central Europeo (BCE)
Autor  FXStreet
6 hace una horas
El EUR/USD cotiza con pérdidas moderadas, aunque se mantiene cerca de 1.1730 en el momento de escribir, con el máximo de varios meses de 1.1762 a corta distancia. Los inversores se muestran cautelosos ante una serie de publicaciones macroeconómicas de Estados Unidos retrasadas y la decisión de política monetaria del Banco Central Europeo (BCE)
placeholder
El Oro cotiza sobre 4.260$ a medida que el recorte de la Fed impulsa la subidaEl oro (XAU/USD) se dispara el jueves después de que la Reserva Federal (Fed) recortara las tasas como se esperaba el miércoles, y aunque insinuó una pausa en el ciclo de relajación, no fue una excusa para el rally en los metales preciosos.
Autor  FXStreet
12 Mes 12 Día Vie
El oro (XAU/USD) se dispara el jueves después de que la Reserva Federal (Fed) recortara las tasas como se esperaba el miércoles, y aunque insinuó una pausa en el ciclo de relajación, no fue una excusa para el rally en los metales preciosos.
placeholder
El Oro salta tras el recorte de tasas de la Fed, el XAU/USD extiende ganancias por la orientación moderadaLos precios del Oro (XAU/USD) suben durante la sesión norteamericana después de que la Reserva Federal decidiera recortar las tasas como se esperaba. Al momento de escribir, el XAU/USD cotiza de manera volátil, entre 4.190$ y 4.220$, registrando pérdidas de más del 0.25%.
Autor  FXStreet
12 Mes 11 Día Jue
Los precios del Oro (XAU/USD) suben durante la sesión norteamericana después de que la Reserva Federal decidiera recortar las tasas como se esperaba. Al momento de escribir, el XAU/USD cotiza de manera volátil, entre 4.190$ y 4.220$, registrando pérdidas de más del 0.25%.
placeholder
El XAG/USD renueva su máximo histórico, busca consolidar el movimiento por encima de 61.00$La plata (XAG/USD) entra en una fase de consolidación alcista durante la sesión asiática y oscila dentro de un rango estrecho cerca del máximo histórico, alrededor del vecindario de 61.00$, alcanzado este miércoles.
Autor  FXStreet
12 Mes 10 Día Mier
La plata (XAG/USD) entra en una fase de consolidación alcista durante la sesión asiática y oscila dentro de un rango estrecho cerca del máximo histórico, alrededor del vecindario de 61.00$, alcanzado este miércoles.
placeholder
El precio del Oro cae por debajo de 4.200$ mientras los rendimientos en aumento y el nerviosismo por la Fed afectan al lingoteEl Oro (XAU/USD) retrocede el lunes mientras los operadores se preparan para la reunión de la Reserva Federal (Fed), donde se espera que el banco central realice su tercer recorte de tasas consecutivo, antes de 2026. Al momento de escribir, el XAU/USD cotiza en 4.195$, con una caída del 0.27%, después de alcanzar un máximo diario de 4.219$
Autor  FXStreet
12 Mes 09 Día Mar
El Oro (XAU/USD) retrocede el lunes mientras los operadores se preparan para la reunión de la Reserva Federal (Fed), donde se espera que el banco central realice su tercer recorte de tasas consecutivo, antes de 2026. Al momento de escribir, el XAU/USD cotiza en 4.195$, con una caída del 0.27%, después de alcanzar un máximo diario de 4.219$
goTop
quote