Os novos chips Blackwell da Nvidia estão mudando a rapidez com que os sistemas de inteligência artificial podem ser treinados.
Na última rodada de resultados de benchmarking divulgados na quarta -feira pela MLCommons, um grupo sem fins lucrativos que trac KS e compara as capacidades dos chips de AI , a arquitetura Blackwell programada pela Nvidia Set Records.
Quando testado com o modelo Llama 3.1 405B de código aberto da Meta, um dos seus maiores e mais complexos modelos de IA, o treinamento foi concluído em apenas 27 minutos usando chips Blackwell. Isso foi feito com apenas 2.496 GPUs de Blackwell, uma ordem de magnitude menor do que a que seria levada com os chips de tremonha anteriores da Nvidia.
Por outro lado, os designs anteriores usaram mais de três vezes mais GPUs de Hopper para oferecer desempenho equivalente. Pelo chip, Blackwell era mais do que o dobro mais rápido, o que foi um grande salto na eficiência de convergência. Esse tipo de impulso de desempenho pode se traduzir em um grande tempo e economia de custos para o treinamento de modelos de trilhões de parâmetros.
Acredita-se que esses resultados sejam os primeiros do MLCommons para modelos de treinamento nessas escalas extremas e fornecem uma medição do mundo real de quão bem os chips lidam com as cargas de trabalho de IA mais exigentes.
Não foram apenas os resultados uma vitória para a Nvidia, mas também destacaram o trabalho da CoreWeave, uma empresa de infraestrutura em nuvem que fez parceria nos testes. Em uma entrevista coletiva, o diretor de produtos da CoreWeave, Chetan Kapoor, apontou uma direção geral que cada vez mais fazia sentido na indústria: longe de grandes e homogêneos blocos de dezenas de milhares de GPUs.
Em vez de construir um sistema de computação único, maciço e monolítico, as empresas agora estão analisando subconjuntos menores e interconectados que podem gerenciar o treinamento em modelos maciços com mais eficiência e com melhor escala.
Kapoor disse que, com essa técnica, os desenvolvedores podem continuar escalando ou reduzindo o tempo necessário para treinar modelos extremamente grandes com trilhões de parâmetros.
A mudança para a implantação modular do hardware também é necessária, pois o tamanho e a complexidade dos modelos de IA apenas inflam.
Embora o foco tenha mudado para a inferência de IA, na qual modelos como ChatGPT1 respondem às perguntas do usuário em tempo real, o treinamento ainda é o cavalo de trabalho do desenvolvimento da IA.
A parte do treinamento fornece a esses modelos seus inteligentes, permitindo que eles entendam a linguagem, enfrentam alguns de nossos problemas mais desafiadores e até produzam prosa do tipo humano. O cálculo é altamente exigente e requer milhares de chips de alto desempenho para operar por longos períodos, normalmente dias, senão semanas ou meses.
Isso mudou com a arquitetura Blackwell da Nvidia . Ao cortar radicalmente as fichas e o tempo necessário para treinar os modelos gigantescos de IA, os chips Blackwell dão à Nvidia uma mão melhor em um mercado em que a velocidade e a eficiência governam o poleiro.
Modelos de treinamento como a Llama 3.1 405b da Meta, que possuem trilhões de parâmetros, já tiveram que ser executados em grandes aglomerados de GPUs e foram um processo caro de consumo de energia.
Esses ganhos de desempenho são uma vantagem significativa no momento em que há uma demanda empolgante por modelos de IA cada vez maiores e mais poderosos em muitos setores - desde cuidados de saúde e finanças até educação e veículos autônomos.
Ele também envia uma mensagem clara aos rivais da NVIDIA. Agora, empresas de chips como AMD e Intel, que estão trabalhando em seus chips específicos da IA, estão sob maior pressão para manter um ritmo semelhante.
A AMD enviou para o teste de referência do MLCommons, mas não mostrou resultados para um modelo tão grande quanto o Llamas 3.1 405b. A Nvidia foi a única que testou na ponta da referência, provando que era o hardware superior e disposto a enfrentar os desafios mais difíceis.
Academia Cryptopolitan: Quer aumentar seu dinheiro em 2025? Aprenda a fazê -lo com DeFi em nossa próxima webclass. Salve seu lugar