GLM-5.2, lanzado por Z.ai, es un modelo de lenguaje grande (LLM) de código abierto y ponderado. Según se informa, lidera el campo de los LLM de código abierto en análisis artificial, ubicándose entre los tres mejores del mundo. Esto significa que GLM-5.2 está muy cerca de los LLM de vanguardia creados por Anthropic y OpenAI.
Este lanzamiento puede afectar significativamente el panorama competitivo del mercado de la IA. Antes de su lanzamiento, los modelos LLM de ponderación abierta se encontraban muy por detrás de sus análogos de ponderación cerrada en casi todas las pruebasdent . Los resultados de las pruebas de GLM-5.2 sugieren que esta brecha se está reduciendo, lo que tiene implicaciones interesantes para el uso empresarial, los precios y los modelos de negocio de los laboratorios de ponderación cerrada.
Según la empresa de evaluación independientedent AI, GLM-5.2 obtuvo el mejor rendimiento entre cinco pruebas comparativas diferentes: Vals Index, Harvey's Legal Agent Benchmark, Finance Agent v2, ProofBench y Vibe Code Bench.
Vals AI informó que GLM-5.2 es el primer modelo de ponderación abierta en superar el 30 % en ProofBench, lo que representa 11 puntos porcentuales más que el segundo clasificado. Además, se situó a tan solo 1 punto porcentual de Claude Opus 4.5 de Anthropic, lo que lo coloca en una posición excepcional cerca del rendimiento de vanguardia de los modelos propietarios.
Presentamos GLM-5.2: Inteligencia de vanguardia, pesos abiertos
— Z.ai (@Zai_org) 16 de junio de 2026
: mejoras significativas en la codificación y las tareas de agentes
; sólidastronde largo plazo con una ventana de contexto de 1M
; dos niveles de esfuerzo de razonamiento: GLM-5.2 (máximo) lleva los límites al límite, mientras que GLM-5.2 (alto) destaca por sutroncapacidad… pic.twitter.com/SjGPSVhePJ
Según Artificial Analysis, GLM-5.2 es el mejor modelo de ponderación abierta en la actualidad, con una puntuación de índice de inteligencia de 51, en comparación con los 40 obtenidos por GLM-5.1. Otros modelos, incluidos MiniMax-M3 y DeepSeek V4 Pro, obtuvieron una puntuación de 44, mientras que Kimi K2.6 obtuvo una puntuación de 43.
GLM-5.2 obtuvo un 78 % en TerminalBench v2.1 (con 16 puntos más que GLM-5.1), un 50 % en SciCode, un 71 % en AA-LCR y un 89 % en GPQA Diamond. En la prueba de referencia de agentes de largo plazo GDPval-AA v2, GLM-5.2 obtuvo 1524 puntos Elo, mejor que los 1514 obtenidos por GPT-5.5.
Sin embargo, a pesar del impresionante rendimiento de GLM 5.2, los expertos señalan que comprender los resultados de referencia se está volviendo cada vez más complejo. Por ejemplo, los modelos agregados, como la Inteligencia Artificial, disminuyen la influencia del sesgo asociado con las pruebas individuales, pero aumentan la influencia del sistema de ponderación utilizado, las variaciones de los datos de referencia y los cambios en los conjuntos de evaluación. La contaminación de los datos de referencia y los efectos de optimización siguen siendo preocupaciones constantes en las pruebas de IA de vanguardia.
Según Z.ai, GLM-5.2 es el modelo más potente que ofrece la compañía para tareas de razonamiento a largo plazo y codificación de agentes. Este modelo proporciona una ventana de contexto de 1 millón de tokens, en comparación con los 200 000 de GLM-5.1.
GLM-5.2 tiene una arquitectura de mezcla de expertos y consta de aproximadamente 750 mil millones de parámetros totales y 40 mil millones de parámetros activos, optimizados para flujos de trabajo de codificación y razonamiento de múltiples pasos.
GLM-5.2 emplea dos formas de razonamiento: una configuración de alto esfuerzo para tareas complejas y un modo de menor coste diseñado para la eficiencia y el control de la latencia.
Según Artificial Analysis, GLM-5.2 tiene la capacidad de generar alrededor de 43 000 tokens de salida por operación de evaluación, en comparación con los 26 000 de GLM-5.1. Si bien esto ayuda a mejorar las métricas de rendimiento, en la práctica podría aumentar los costos computacionales.
El de Z.ai destaca las mejoras en los agentes de codificación, el proceso de depuración, la investigación automatizada, el procesamiento de documentos y la generación de textos extensos, posicionando el modelo como optimizado para tareas sostenidas de varios pasos en lugar de indicaciones aisladas.
La llegada de GLM-5.2 se produce en un contexto de debate sobre hasta qué punto los sistemas de ponderación abierta están alcanzando a los modelos propietarios de vanguardia. Las empresas chinas de IA han logrado posicionarse entre las primeras del ranking de modelos abiertos, y GLM-5.2 se ha convertido en una pieza clave en este proceso.
Esta discusión en particular se hizo pública a través de los comentarios de Elon Musk y Jie Tang (fundador de Z.ai) sobre cuándo los modelos chinos estarán a la par con los modelos de vanguardia. Musk respondió: "Probablemente en el primer trimestre del próximo año".
Tang no estuvo de acuerdoy afirmó: "No llevará tanto tiempo".
Probablemente Q1
— Elon Musk (@elonmusk) 18 de junio de 2026
Si bien los indicadores de referencia pueden mostrar una rápida convergencia, los primeros comentarios de los profesionales revelan discrepancias en el rendimiento en el mundo real.
El ingeniero de IA Da7_Tech expresó su preocupación no tanto por el modelo en sí, sino más bien por la infraestructura y la transparencia en el uso del Z.ai , afirmando que "va en contra de todo lo que la gente espera de los valores de los modelos de código abierto".
Probó Zcode, Z.aidesarrollada con modelos GLM, bajo un plan Pro que afirma ser "15 veces más potente que Claude Code". En una sola sesión de trabajo, afirmó que el uso se agotó en menos de una hora, consumiendo así las cinco horas permitidas para toda la tarea.
También afirmó que existía una discrepancia entre el uso que mostraba la aplicación y el importe facturado. Supuestamente, la aplicación mostraba menos de 2 millones de tokens, pero se le facturaron aproximadamente 60 millones, tanto en lo que respecta a los límites diarios como semanales. Esto implica que se estaban considerando tokens almacenados en caché e intermedios para el cálculo del uso, en lugar de los tokens reales. Posteriormente, mencionó que Z.ai eliminó el conteo de tokens de su "Modo Meta" y modificó las descripciones de su plan Pro.
Además, el desarrollador de IA Michael Guo comparó GLM-5.2 con GPT-5.5 de nivel medio al depurar un problema en su agente OpenClaw llamado Trippy. Esta fue su conclusión:
“Al menos en la prueba que realicé, no fue tan capaz como GPT-5.5 de nivel medio. Ni siquiera se le acercaba.”
GPT-5.5 de nivel medio detectó el problema de las respuestas repetidas del agente muy rápidamente, mientras que GLM-5.2 no pudo encontrarlo.
En resumen, señaló que, si bien los resultados de las pruebas de referencia pueden implicar un buen rendimiento, el trabajo de depuración real puede revelar inconsistencias que no se detectan en los resultados agregados.
Los resultados de las pruebas comparativas demuestran que GLM-5.2 es una de las mejores arquitecturas de peso abierto disponibles actualmente, y en ocasiones incluso mejor que otras arquitecturas propietarias.
Sin embargo, las opiniones sobre el rendimiento, la eficiencia y la transparencia del sistema parecen variar según las situaciones de uso y la integración con otros sistemas.
Por lo tanto, este asunto tiene dos caras: GLM-5.2 supone un importante avance en el desarrollo del campo de la arquitectura de pesos abiertos, pero su aplicación requerirá tanto esfuerzo en lo que respecta a la preparación de la infraestructura y la calidad del producto como en lo que respecta a los resultados de las pruebas comparativas.
Por ahora, GLM-5.2 se convierte en un paso importante para reducir la brecha entre los sistemas de IA abiertos y cerrados, aunque todavía no representa una convergencia decisiva.
No te limites a leer noticias sobre criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.