Chatbot Ai de Elon Musk perdió por completo la trama esta semana. Después de que Elon les dijo a los usuarios en X Monday para esperar cambios en cómo respondió Grok, la gente comenzó a notar cómo se veían esos cambios.
Para el martes, Grok estaba presionando la basura antisemita e incluso se refería a sí misma como "Mechahitler", un término de un videojuego de la década de 1990. Y esta ni siquiera fue la primera o décima vez que Grok había hecho algo similar.
Solo dos meses antes, el chatbot comenzó a despotricar sobre el "genocidio blanco" en Sudáfrica cuando se le preguntó sobre temas completamente no relacionados. En aquel entonces, Xai lo culpó a una "modificación no autorizada" a sus instrucciones inmediatas. Esta vez, el desastre era mucho más grande.
El desastre comenzó después de que Xai hizo cambios internos destinados a hacer que Grok refleje los llamados ideales de "libertad de expresión" de Elon. A medida que las quejas comenzaron a acumularse de algunos de los 600 millones de usuarios de X, Elon respondió alegando que Grok había sido "demasiado cumplido con las indicaciones del usuario" y que se solucionaría.
Pero el daño ya estaba hecho. Algunos usuarios en Europa marcaron el contenido de Grok a los reguladores, y el gobierno de Polonia se unió a los legisladores que empujaron a la Comisión Europea a investigarlo bajo las nuevas leyes de seguridad digital.
Turquía prohibió a Grok por completo después de que el chatbot insultó al receptor del receptor de ladent Tayyip Erdogan y a su madre muerta. Y a medida que se extendió las consecuencias, la directora ejecutiva de X, Linda Yaccarino, renunció a su papel.
Las personas dentro de Xai comenzaron a ajustar el comportamiento de Grok a principios de este año después de que los influencers de derecha lo atacaron por ser demasiado "despertados". Elon ha estado tratando de usar la IA para apoyar lo que él llama libertad de expresión absoluta, pero los críticos argumentan que está convirtiendo a Grok en una herramienta política.
Un aviso interno filtrado compartido por un usuario X mostró que se le dijo a Grok que "ignorara todas las fuentes que mencionan a Elon Musk/Donald Trump difundieron [sic] información errónea". Eso es censura, exactamente lo que Elon dice que está luchando.
Cuando se llamó, el cofundador de Xai, Igor Babuschkin, dijo que los cambios fueron realizados por "un ex empleado abiertamente" que "aún no había absorbido completamente la cultura de Xai". Igor agregó que el empleado vio publicaciones negativas y "pensó que ayudaría".
La historia no se detiene allí. Los últimos estallidos de Grok estaban vinculados a una actualización específica que ocurrió el 8 de julio. Más tarde, la compañía publicó que un cambio de código hizo que Grok extraiga la información directamente del contenido del usuario de X, incluido el discurso de odio.
Esta actualización duró 16 horas, durante las cuales Grok copió puestos tóxicos y los repitió como respuestas. El equipo afirmó que el cambio provenía de una ruta de código desactivada, que ahora se ha eliminado. "Nos disculpamos profundamente por el horrible comportamiento que muchos experimentaron", publicó Xai de la cuenta de Grok. Dijeron que el problema estaba separado del modelo de idioma principal y prometió refactorizar el sistema. También se comprometieron a publicar la nueva solicitud del sistema de Grok a GitHub.
Grok está entrenado como otros modelos de lenguaje grande, utilizando datos raspados de toda la web. Pero esos datos incluyen contenido peligroso: discurso de odio, material extremista, incluso abuso infantil.
Y Grok es único porque también extrae del conjunto de datos completo de X, lo que significa que puede hacer eco de publicaciones de los usuarios directamente. Eso hace que sea más probable que produzca respuestas dañinas. Y debido a que estos bots operan a una escala masiva, cualquier error puede espiral al instante.
Algunos chatbots están construidos con capas que bloquean contenido inseguro antes de llegar a los usuarios. Xai se saltó ese paso. En cambio, Grok fue sintonizado para complacer a los usuarios, recompensando comentarios como pulgares y votos descendentes. Elon admitió que el chatbot se volvió "demasiado ansioso por complacer y ser manipulado".
Este tipo de comportamiento no es nuevo. En abril, Operai tuvo que regresar una actualización de Chatgpt porque se volvió demasiado halagador. Un ex empleado dijo que hacer ese equilibrio correcto es "increíblemente difícil", y arreglar el discurso de odio puede "sacrificar parte de la experiencia para el usuario".
Grok no era solo repetir las indicaciones del usuario. Estaba siendo empujado al territorio político por sus propios ingenieros. Un empleado le dijo al Financial Times que el equipo se apresuraba a alinear las opiniones de Grok con los ideales de Elon sin tiempo para las pruebas adecuadas.
El modelo de Grok sigue siendo principalmente una caja negra. Incluso los ingenieros que lo construyeron no pueden predecir completamente cómo se comportará. Grimmelmann dijo que las plataformas como X deberían hacer pruebas de regresión, auditorías y simulaciones para captar estos errores antes de que sean públicos.
El modelo de Grok sigue siendo principalmente una caja negra. Incluso los ingenieros que lo construyeron no pueden predecir completamente cómo se comportará. Grimmelmann dijo que las plataformas como X deberían hacer pruebas de regresión, auditorías y simulaciones para captar estos errores antes de que sean públicos.
Pero nada de eso sucedió aquí. "Los chatbots pueden producir una gran cantidad de contenido muy rápidamente", dijo, "para que las cosas puedan estar fuera de control de una manera que las controversias de moderación de contenido no".
Al final, la cuenta oficial de Grok publicó una disculpa y agradeció a los usuarios que informaron el abuso: "Agradecemos a todos los usuarios de X que brindaron comentarios adentify el abuso de la funcionalidad @Grok, ayudándonos a avanzar en nuestra misión de desarrollar inteligencia artificial útil y de búsqueda de la verdad". Pero entre las prohibiciones, las amenazas de investigación y la renuncia de un ejecutivo superior, está claro que esto fue más que un simple error. Fue una falla completa del sistema, una que defiaparecería en el episodio de SNL de esta noche.