A Universidade Tsinghua e a Microsoft Research Asia treinaram um modelo completo de IA usando apenas dados falsos. Nenhuma amostra do mundo real.
Todo o conjunto de dados foi gerado artificialmente por meio de um novo pipeline chamado SynthSmith, e o sistema foi executado em chips da Nvidia do início ao fim. A equipe não se limitou a realizar um teste de novidade. Eles construíram um modelo funcional com 7 bilhões de parâmetros que superou modelos muito maiores treinados com dados humanos.
O artigo deles, publicado em 11 de janeiro no arXiv, afirma que o X-Coder que eles treinaram superou modelos de codificação com 14 bilhões de parâmetros, mesmo sem nunca ter visto texto do mundo real.
“Uma análise aprofundada revela que as leis de escala se mantêm em nosso conjunto de dados sintéticos”, escreveram os pesquisadores. Essa equipe incluiu nomes da Universidade de Tsinghua, da Microsoft Research Asia e da Universidade de Wuhan.
A configuração de treinamento utilizou amplamente o hardware da Nvidia. Para o ajuste fino supervisionado, foram usados 128 chips Nvidia H20 por 220 horas consecutivas. Depois disso, a equipe passou a utilizar 32 chips H200 por mais sete dias completos para lidar com a fase de aprendizado por reforço. Essas escolhas não foram aleatórias. O H20 é otimizado para inferência, enquanto o H200 é projetado para treinamento de alto desempenho. Esses são os chips mais poderosos disponíveis para empresas chinesas atualmente, graças às isenções de controle de exportação aprovadas pelo governo Trump após da Nvidia para disponibilizá-los na China.
Os pesquisadores afirmaram que o problema de escalabilidade não estava no próprio pipeline, mas sim na capacidade de processamento.
Wu Jie, o autor principal edent de mestrado em Tsinghua, disse que o verdadeiro motivo pelo qual eles não levaram o pipeline a modelos com 100 bilhões ou trilhões de parâmetros foi simplesmente "restrições computacionais, e não limitações do próprio pipeline"
Ao disponibilizar o código publicamente, eles esperam que outros possam desenvolver o projeto sem precisar arcar com custos exorbitantes de treinamento. O artigo também destaca uma tendência na área de IA.
Agora, espera-se que os modelos "pensem" em períodos de tempo mais longos e lidem com raciocínios complexos, o que aumentou a necessidade de muito mais poder computacional durante a inferência, e não apenas durante o treinamento.
Em outra frente, cientistas chineses construíram um novo chip chamado ACCEL, que utiliza partículas de luz em vez de eletricidade. O chip (abreviação de All-Analogue Chip Combining Electronics tron Light) foi testado em laboratório e atingiu 4,6 PFLOPS.
Isso é 3.000 vezes mais rápido que o A100 da Nvidia, e o chip chinês consumiu 4 milhões de vezes menos energia. Isso o torna um dos chips já criados para tarefas específicas, como reconhecimento de imagem ou direção autônoma.
Ainda não substituirá CPUs ou chips de smartphones, mas a equipe acredita que poderá funcionar em dispositivos vestíveis, veículos elétricos ou fábricas inteligentes.
O chip foi fabricado usando um processo de 20 anos da Semiconductor Manufacturing International Corporation. Isso evitou a necessidade de máquinas de litografia avançadas, às quais a China ainda não tem acesso.
“A implantação de sistemas de computação fotônica costumava ser um desafio devido ao projeto estrutural complexo e à vulnerabilidade a ruídos e erros do sistema”, disse em um artigo.
O chip evita isso combinandotronfotônica e analógica em uma nova estrutura. Ele não lida com tarefas computacionais gerais, como compressão de arquivos, mas é ótimo para visão computacional por IA e sensoriamento em baixa luminosidade.
Um detalhe curioso: a energia necessária para manter os chips modernos funcionando por uma hora seria suficiente para manter o ACCEL em operação por 500 anos. Essa baixa demanda de energia também facilita o gerenciamento do calor, fator que limita o tamanho dos chips.
As funções do chip incluemdentde tráfego, imagens em baixa luminosidade e visão em tempo real, utilizando a luz ambiente diretamente no processo de sensoriamento. A equipe afirmou que não se trata de um chip de uso geral, mas que atende a uma necessidade muito específica.
O financiamento veio do Programa Nacional de Pesquisa e Desenvolvimento e da Fundação Nacional de Ciências Naturais da China. Uma empresa de semicondutores de Pequim chamada MakeSens, cofundada por um dos pesquisadores, também esteve envolvida e lançou recentemente um chip analógico de baixo consumo de energia.
Dai Qionghai, da Universidade Tsinghua, um dos líderes do projeto, disse que construir uma nova arquitetura de computação era apenas o primeiro passo.
“O desafio mais importante é levar essa nova arquitetura a aplicações práticas, resolvendo as principais necessidades nacionais e públicas, o que é nossa responsabilidade.”
A equipe não divulgou nenhuma informação sobre quando esse chip poderá chegar ao mercado.
Quer que seu projeto seja apresentado às mentes mais brilhantes do mundo das criptomoedas? Apresente-o em nosso próximo relatório do setor, onde dados encontram impacto.