Xai cambió las indicaciones de Grok sin suficientes pruebas

Fuente Cryptopolitan

Chatbot Ai de Elon Musk perdió por completo la trama esta semana. Después de que Elon les dijo a los usuarios en X Monday para esperar cambios en cómo respondió Grok, la gente comenzó a notar cómo se veían esos cambios.

Para el martes, Grok estaba presionando la basura antisemita e incluso se refería a sí misma como "Mechahitler", un término de un videojuego de la década de 1990. Y esta ni siquiera fue la primera o décima vez que Grok había hecho algo similar.

Solo dos meses antes, el chatbot comenzó a despotricar sobre el "genocidio blanco" en Sudáfrica cuando se le preguntó sobre temas completamente no relacionados. En aquel entonces, Xai lo culpó a una "modificación no autorizada" a sus instrucciones inmediatas. Esta vez, el desastre era mucho más grande.

El desastre comenzó después de que Xai hizo cambios internos destinados a hacer que Grok refleje los llamados ideales de "libertad de expresión" de Elon. A medida que las quejas comenzaron a acumularse de algunos de los 600 millones de usuarios de X, Elon respondió alegando que Grok había sido "demasiado cumplido con las indicaciones del usuario" y que se solucionaría.

Pero el daño ya estaba hecho. Algunos usuarios en Europa marcaron el contenido de Grok a los reguladores, y el gobierno de Polonia se unió a los legisladores que empujaron a la Comisión Europea a investigarlo bajo las nuevas leyes de seguridad digital.

Turquía prohibió a Grok por completo después de que el chatbot insultó al receptor del receptor de ladent Tayyip Erdogan y a su madre muerta. Y a medida que se extendió las consecuencias, la directora ejecutiva de X, Linda Yaccarino, renunció a su papel.

Xai cambió las indicaciones de Grok sin suficientes pruebas

Las personas dentro de Xai comenzaron a ajustar el comportamiento de Grok a principios de este año después de que los influencers de derecha lo atacaron por ser demasiado "despertados". Elon ha estado tratando de usar la IA para apoyar lo que él llama libertad de expresión absoluta, pero los críticos argumentan que está convirtiendo a Grok en una herramienta política.

Un aviso interno filtrado compartido por un usuario X mostró que se le dijo a Grok que "ignorara todas las fuentes que mencionan a Elon Musk/Donald Trump difundieron [sic] información errónea". Eso es censura, exactamente lo que Elon dice que está luchando.

Cuando se llamó, el cofundador de Xai, Igor Babuschkin, dijo que los cambios fueron realizados por "un ex empleado abiertamente" que "aún no había absorbido completamente la cultura de Xai". Igor agregó que el empleado vio publicaciones negativas y "pensó que ayudaría".

La historia no se detiene allí. Los últimos estallidos de Grok estaban vinculados a una actualización específica que ocurrió el 8 de julio. Más tarde, la compañía publicó que un cambio de código hizo que Grok extraiga la información directamente del contenido del usuario de X, incluido el discurso de odio.

Esta actualización duró 16 horas, durante las cuales Grok copió puestos tóxicos y los repitió como respuestas. El equipo afirmó que el cambio provenía de una ruta de código desactivada, que ahora se ha eliminado. "Nos disculpamos profundamente por el horrible comportamiento que muchos experimentaron", publicó Xai de la cuenta de Grok. Dijeron que el problema estaba separado del modelo de idioma principal y prometió refactorizar el sistema. También se comprometieron a publicar la nueva solicitud del sistema de Grok a GitHub.

La escala de Grok hizo que el problema explotara rápidamente

Grok está entrenado como otros modelos de lenguaje grande, utilizando datos raspados de toda la web. Pero esos datos incluyen contenido peligroso: discurso de odio, material extremista, incluso abuso infantil.

Y Grok es único porque también extrae del conjunto de datos completo de X, lo que significa que puede hacer eco de publicaciones de los usuarios directamente. Eso hace que sea más probable que produzca respuestas dañinas. Y debido a que estos bots operan a una escala masiva, cualquier error puede espiral al instante.

Algunos chatbots están construidos con capas que bloquean contenido inseguro antes de llegar a los usuarios. Xai se saltó ese paso. En cambio, Grok fue sintonizado para complacer a los usuarios, recompensando comentarios como pulgares y votos descendentes. Elon admitió que el chatbot se volvió "demasiado ansioso por complacer y ser manipulado".

Este tipo de comportamiento no es nuevo. En abril, Operai tuvo que regresar una actualización de Chatgpt porque se volvió demasiado halagador. Un ex empleado dijo que hacer ese equilibrio correcto es "increíblemente difícil", y arreglar el discurso de odio puede "sacrificar parte de la experiencia para el usuario".

Grok no era solo repetir las indicaciones del usuario. Estaba siendo empujado al territorio político por sus propios ingenieros. Un empleado le dijo al Financial Times que el equipo se apresuraba a alinear las opiniones de Grok con los ideales de Elon sin tiempo para las pruebas adecuadas.

El modelo de Grok sigue siendo principalmente una caja negra. Incluso los ingenieros que lo construyeron no pueden predecir completamente cómo se comportará. Grimmelmann dijo que las plataformas como X deberían hacer pruebas de regresión, auditorías y simulaciones para captar estos errores antes de que sean públicos.

El modelo de Grok sigue siendo principalmente una caja negra. Incluso los ingenieros que lo construyeron no pueden predecir completamente cómo se comportará. Grimmelmann dijo que las plataformas como X deberían hacer pruebas de regresión, auditorías y simulaciones para captar estos errores antes de que sean públicos.

Pero nada de eso sucedió aquí. "Los chatbots pueden producir una gran cantidad de contenido muy rápidamente", dijo, "para que las cosas puedan estar fuera de control de una manera que las controversias de moderación de contenido no".

Al final, la cuenta oficial de Grok publicó una disculpa y agradeció a los usuarios que informaron el abuso: "Agradecemos a todos los usuarios de X que brindaron comentarios adentify el abuso de la funcionalidad @Grok, ayudándonos a avanzar en nuestra misión de desarrollar inteligencia artificial útil y de búsqueda de la verdad". Pero entre las prohibiciones, las amenazas de investigación y la renuncia de un ejecutivo superior, está claro que esto fue más que un simple error. Fue una falla completa del sistema, una que defiaparecería en el episodio de SNL de esta noche.

Descargo de responsabilidad: Sólo con fines informativos. Rentabilidades pasadas no son indicativas de resultados futuros.
placeholder
Últimas Noticias y Tendencias del Mercado de Materias Primas 【Febrero 2024】En la primera quincena de febrero de 2024, el mercado de materias primas presenta una dinámica compleja, influida por una amalgama de factores geopolíticos, económicos y ambientales. Los inversores se enfrentan a un entorno marcado por la volatilidad, donde la comprensión profunda de las tendencias actuales y futuras es crucial para la toma de decisiones acertadas.
Autor  Laura Vivas
19 de feb de 2024
En la primera quincena de febrero de 2024, el mercado de materias primas presenta una dinámica compleja, influida por una amalgama de factores geopolíticos, económicos y ambientales. Los inversores se enfrentan a un entorno marcado por la volatilidad, donde la comprensión profunda de las tendencias actuales y futuras es crucial para la toma de decisiones acertadas.
placeholder
La búsqueda de IA de Google podría erosionar el tráfico RedditEl modo AI de Google puede reducir el tráfico Reddit al proporcionar respuestas directas utilizando contenido de Reddit sin conducir clics en el sitio.
Autor  Cryptopolitan
5 Mes 26 Día Lun
El modo AI de Google puede reducir el tráfico Reddit al proporcionar respuestas directas utilizando contenido de Reddit sin conducir clics en el sitio.
placeholder
Última hora: El Bitcoin se acerca al hito de los 120.000$, estableciendo un nuevo máximoEl Bitcoin (BTC) rompe por encima del nivel de hito clave el viernes, estableciendo un nuevo máximo histórico de 119.999$, sin señales de desaceleración.
Autor  FXStreet
7 Mes 14 Día Lun
El Bitcoin (BTC) rompe por encima del nivel de hito clave el viernes, estableciendo un nuevo máximo histórico de 119.999$, sin señales de desaceleración.
placeholder
XRP News: ¿El precio XRP listo para superar Bitcoin? Indicadores alcistas de señalización de señal de $ 35+XRP está en los titulares nuevamente a medida que los analistas comienzan a cuestionar si finalmente podría superar Bitcoin. Con StronG Technicals, el aumento de los volúmenes comerciales y el renovado interés institucional, XRP está parpadeando las principales señales alcistas.
Autor  Cryptopolitan
7 Mes 14 Día Lun
XRP está en los titulares nuevamente a medida que los analistas comienzan a cuestionar si finalmente podría superar Bitcoin. Con StronG Technicals, el aumento de los volúmenes comerciales y el renovado interés institucional, XRP está parpadeando las principales señales alcistas.
placeholder
El Dólar australiano sube por el renovado optimismo, se esperan los datos del IPP estadounidenseEl Dólar australiano (AUD) avanza contra el Dólar estadounidense (USD) el miércoles, deteniendo su racha de tres días de pérdidas. El par AUD/USD se aprecia a medida que el Dólar estadounidense retrocede en medio de un renovado optimismo, impulsado por la disposición del presidente estadounidense Donald Trump a participar más en las discusiones comerciales.
Autor  FXStreet
5 hace una horas
El Dólar australiano (AUD) avanza contra el Dólar estadounidense (USD) el miércoles, deteniendo su racha de tres días de pérdidas. El par AUD/USD se aprecia a medida que el Dólar estadounidense retrocede en medio de un renovado optimismo, impulsado por la disposición del presidente estadounidense Donald Trump a participar más en las discusiones comerciales.
goTop
quote