O GLM-5.2 da Z.ai reduz a diferença em relação ao OpenAI e ao Anthropic

Fonte Cryptopolitan

O GLM-5.2, lançado pela Z.ai, é descrito pela empresa como um modelo de linguagem de grande porte (LLM) de código aberto. Segundo relatos, ele lidera outros LLMs de código aberto em Análise Artificial, figurando entre os três melhores LLMs do mundo. Isso significa que o GLM-5.2 está muito próximo dos LLMs de ponta criados pela Anthropic e pela OpenAI.

Esta versão pode afetar significativamente o cenário competitivo no mercado de IA. Antes do seu lançamento, os LLMs de peso aberto ficavam muito atrás de seus análogos de peso fechado em quase todos os testesdent . Os resultados dos testes do GLM-5.2 indicam que essa diferença está sendo reduzida, com algumas implicações interessantes para o uso corporativo, precificação e modelos de negócios de laboratórios de peso fechado.

O que os resultados dos testes de benchmark dizem sobre o GLM 5.2

De acordo com a empresa independentedent avaliação Vals AI, o GLM-5.2 apresentou o melhor desempenho entre os demais em cinco benchmarks diferentes: Vals Index, Harvey's Legal Agent Benchmark, Finance Agent v2, ProofBench e Vibe Code Bench.

A Vals AI relatou que o GLM-5.2 é o primeiro modelo open-weight a ultrapassar 30% no ProofBench, o que representa uma melhoria de 11 pontos percentuais em relação ao segundo colocado. Além disso, ficou apenas 1 ponto percentual atrás do Claude Opus 4.5 da Anthropic, posicionando-o em uma posição incomum, próximo ao desempenho de modelos proprietários de ponta.

De acordo com a Artificial Analysis, o GLM-5.2 é o melhor modelo open-weight atualmente, alcançando um Índice de Inteligência de 51, em comparação com os 40 obtidos pelo GLM-5.1. Outros modelos, incluindo o MiniMax-M3 e o DeepSeek V4 Pro, obtiveram pontuação de 44, enquanto o Kimi K2.6 alcançou 43.

O GLM-5.2 obteve 78% no TerminalBench v2.1 (alcançando 16 pontos a mais que o GLM-5.1), 50% no SciCode, 71% no AA-LCR e 89% no GPQA Diamond. No teste de benchmark de longo prazo GDPval-AA v2, o GLM-5.2 alcançou 1.524 pontos no Elo, um resultado superior aos 1.514 pontos obtidos pelo GPT-5.5.

No entanto, apesar do GLM 5.2 apresentar um desempenho impressionante, especialistas apontam que a compreensão dos resultados de benchmarks está se tornando cada vez mais complexa. Por exemplo, modelos agregados, como os de Inteligência Artificial, diminuem a influência do viés associado a testes individuais, mas aumentam a influência do sistema de ponderação utilizado, provocam variações e alteram os conjuntos de avaliação. A contaminação dos benchmarks e os efeitos da otimização continuam sendo preocupações constantes nos testes de IA de ponta.

Qual é a arquitetura interna do GLM-5.2?

Segundo a Z.ai, o GLM-5.2 é o modelo mais poderoso oferecido pela empresa para tarefas de raciocínio de longo prazo e codificação agentiva. Este modelo fornece uma janela de contexto composta por 1 milhão de tokens, em comparação com os 200.000 do GLM-5.1.

O GLM-5.2 possui uma arquitetura de Mistura de Especialistas e consiste em cerca de 750 bilhões de parâmetros totais e 40 bilhões de parâmetros ativos, otimizados para fluxos de trabalho de raciocínio e codificação em várias etapas.

O GLM-5.2 emprega duas formas de raciocínio: uma configuração de alto esforço para tarefas complexas e um modo de menor custo projetado para eficiência e controle de latência.

De acordo com a Análise Artificial, o GLM-5.2 tem capacidade para gerar cerca de 43.000 tokens de saída por operação de avaliação, em comparação com os 26.000 do GLM-5.1. Embora contribua para a melhoria das métricas de desempenho, isso pode aumentar os custos computacionais na prática.

O da Z.ai destaca as melhorias nos agentes de codificação, no processo de depuração, na pesquisa automatizada, no processamento de documentos e na geração de textos longos, posicionando o modelo como otimizado para tarefas contínuas e de várias etapas, em vez de instruções isoladas.

Contexto de mercado e atritos no ecossistema

O lançamento do GLM-5.2 ocorre em um contexto de discussões sobre até que ponto os sistemas de pesos abertos estão alcançando os modelos proprietários de ponta. Empresas chinesas de IA conquistaram algumas das primeiras posições nos rankings de modelos abertos, e o GLM-5.2 tornou-se uma peça central nesse processo.

Essa discussão em particular veio a público por meio de comentários de Elon Musk e Jie Tang (fundador da Z.ai) sobre quando os modelos chineses estariam em pé de igualdade com os modelos de ponta. Musk respondeu: "Provavelmente no primeiro trimestre do próximo ano."

Tang discordou, afirmando: "Não vai demorar tanto assim."

Embora os benchmarks possam mostrar uma convergência rápida, o feedback inicial dos profissionais da área revela discrepâncias no desempenho no mundo real.

O engenheiro de IA Da7_Tech expressou suas preocupações menos sobre o modelo em si e mais sobre a infraestrutura e a transparência do consumo do Z.ai , afirmando que ele "vai contra tudo o que as pessoas esperam dos valores dos modelos de código aberto".

Ele experimentou o Zcode, aplicativo da o Claude Code". Em uma única sessão de tarefa, ele afirmou que o tempo de uso se esgotou em menos de uma hora – consumindo essencialmente as cinco horas permitidas para toda a tarefa. Z.ai desenvolvido com modelos GLM, no plano Pro, que se apresenta como "15 vezes mais rápido que

Ele também alegou que havia uma discrepância entre o uso mostrado pelo aplicativo e o valor efetivamente cobrado. O aplicativo supostamente exibia menos de 2 milhões de tokens, mas sua conta foi cobrada em aproximadamente 60 milhões, considerando os limites diários e semanais. A implicação aqui é que havia tokens em cache e intermediários sendo considerados para o cálculo do uso, em vez do cálculo real. Posteriormente, ele mencionou que a Z.ai removeu a contagem de tokens do seu "Modo Meta" e modificou as descrições do plano Pro.

Além disso, o desenvolvedor de IA Michael Guo comparou o GLM-5.2 ao GPT-5.5 médio ao depurar um problema em seu agente OpenClaw chamado Trippy. Eis a sua conclusão:

“Pelo menos no teste que realizei, ele não foi tão eficiente quanto o GPT-5.5 médio. Nem de perto.”

O GPT-5.5 Medium identificou o problema com respostas repetidas do agente muito rapidamente, enquanto o GLM-5.2 não conseguiu encontrá-lo.

Em resumo, ele salientou que, embora os resultados dos testes de referência possam indicar um bom desempenho, o trabalho de depuração propriamente dito pode revelar inconsistências que passam despercebidas pelos resultados agregados.

Reduzir a lacuna, mas com realidade de aplicação variável

Os resultados dos testes de benchmark comprovam que o GLM-5.2 é uma das melhores arquiteturas open-weight disponíveis atualmente, sendo por vezes até superior a outras arquiteturas proprietárias.

No entanto, as avaliações relativas ao desempenho, eficiência e transparência do sistema parecem variar dependendo do contexto de uso e da integração com outros sistemas.

Assim, a questão tem dois lados: o GLM-5.2 representa um importante avanço no desenvolvimento da arquitetura de pesos livres, mas sua aplicação exigirá tanto esforço em termos de infraestrutura e qualidade do produto quanto em relação aos resultados de benchmarking.

Por ora, o GLM-5.2 representa um passo importante para diminuir a lacuna entre os sistemas de IA abertos e fechados — embora ainda não seja uma convergência decisiva.

Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.

Isenção de responsabilidade: Apenas para fins informativos. O desempenho passado não é indicativo de resultados futuros.
placeholder
WTI segue pressionado perto de US$ 75,50 com alívio das preocupações sobre ofertaO WTI segue pressionado perto de US$ 75,50 com as expectativas de acordo entre EUA e Irã e normalização do transporte pelo Estreito de Ormuz, enquanto o contango no petróleo do Oriente Médio sinaliza oferta mais ampla no curto prazo.
Autor  FXStreet
6 Mês 17 Dia Qua
O WTI segue pressionado perto de US$ 75,50 com as expectativas de acordo entre EUA e Irã e normalização do transporte pelo Estreito de Ormuz, enquanto o contango no petróleo do Oriente Médio sinaliza oferta mais ampla no curto prazo.
placeholder
Bitcoin cai abaixo de US$ 64.000 com postura hawkish do Fed pressionando o apetite por riscoO Bitcoin caiu abaixo de US$ 64.000 com a postura hawkish do Fed e o aumento das apostas de alta de juros em dezembro, enquanto fluxos fracos dos ETFs e sinais técnicos baixistas ampliam o risco de novas quedas.
Autor  FXStreet
Ontem 07: 57
O Bitcoin caiu abaixo de US$ 64.000 com a postura hawkish do Fed e o aumento das apostas de alta de juros em dezembro, enquanto fluxos fracos dos ETFs e sinais técnicos baixistas ampliam o risco de novas quedas.
placeholder
Ouro hesita abaixo de US$ 4.300 com alta nas apostas de aumento de juros pelo FedO ouro hesita abaixo de US$ 4.300 com a postura hawkish do Fed e o aumento das apostas de alta de juros neste ano, enquanto resistências em US$ 4.370 e US$ 4.400 limitam a recuperação.
Autor  FXStreet
Ontem 10: 17
O ouro hesita abaixo de US$ 4.300 com a postura hawkish do Fed e o aumento das apostas de alta de juros neste ano, enquanto resistências em US$ 4.370 e US$ 4.400 limitam a recuperação.
placeholder
Atividade on-chain do Bitcoin atinge máxima de 2026 apesar da estagnação do preço O preço do Bitcoin segue pressionado, mas a atividade on-chain atingiu a máxima de 2026 com o aumento de transações de baixo valor impulsionadas por protocolos baseados em OP_RETURN, elevando o congestionamento da mempool.
Autor  FXStreet
6 horas atrás
O preço do Bitcoin segue pressionado, mas a atividade on-chain atingiu a máxima de 2026 com o aumento de transações de baixo valor impulsionadas por protocolos baseados em OP_RETURN, elevando o congestionamento da mempool.
placeholder
Ouro enfraquece abaixo de US$ 4.200 com Fed hawkish e incerteza sobre Irã impulsionando o dólarO ouro caiu abaixo de US$ 4.200, pressionado pela postura hawkish do Fed, pela força do dólar e pela incerteza nas negociações entre EUA e Irã, enquanto os indicadores técnicos seguem favorecendo os vendedores.
Autor  FXStreet
6 horas atrás
O ouro caiu abaixo de US$ 4.200, pressionado pela postura hawkish do Fed, pela força do dólar e pela incerteza nas negociações entre EUA e Irã, enquanto os indicadores técnicos seguem favorecendo os vendedores.
goTop
quote