A Nvidia apresentou novas ferramentas e desenvolvimento de modelos abertos para IA física e digital, incluindo o Nvidia Drive Alphamayo-R1 (AR1) para direção autônoma. A gigante da tecnologia anunciou na conferência NeurIPS AI que está expandindo ainda mais seu conjunto de modelos, ferramentas e dados de IA abertos.
A Nvidia afirmou que seus novos modelos de IA físicos e digitais abertos visam apoiar a pesquisa na indústria de IA e em outras áreas. A empresa destacou que seu Alpamayo-R1 é o primeiro modelo de visão, linguagem e ação (VLA) de raciocínio aberto em escala industrial do mundo para carros autônomos. A fabricante de chips também insinuou o lançamento de novos conjuntos de dados e modelos para segurança e fala em IA.
Os pesquisadores da empresa de tecnologia prepararam mais de 70 artigos, workshops e palestras para apresentação na conferência. A empresa está compartilhando seus projetos inovadores que abrangem pesquisa médica, direção autônoma e raciocínio de IA.
A gigante da tecnologia demonstrou um compromisso mais substancial com o código aberto no evento de IA, um esforço reconhecido pela plataforma de benchmarking de IA Artificial Analysis com seu novo Índice de Abertura. O Índice de Abertura da Artificial Analysis classificou a família de ferramentas de IA Nemo tron como uma das melhores disponíveis. A classificação é baseada na quantidade de informações técnicas compartilhadas, na facilidade de uso de licenças modelo e na clareza das regulamentações de uso de dados.
Enquanto isso, o AR1 (Alpamayo-R1) integra o raciocínio de IA baseado em cadeia de pensamento com o planejamento de trajetória para permitir a autonomia de nível 4 e aprimorar a segurança de veículos autônomos em diversos cenários de trânsito. A fabricante de chips afirmou que as versões anteriores de modelos de direção autônoma enfrentavam dificuldades em situações como cruzamentos com grande fluxo de pedestres, carros estacionados em fila dupla em ciclovias ou a iminência de interdições na via. No entanto, o raciocínio confere aos veículos autônomos o bom senso necessário para dirigir como humanos.
O modelo AR1 consegue isso decompondo cenários e raciocinando em cada etapa para considerar todos os resultados possíveis. Em seguida, utiliza dados contextuais para determinar o curso de ação mais eficaz.
A Nvidia afirma que o AR1 utiliza o raciocínio de cadeia de pensamento, o que lhe permite processar dados ao longo de seu percurso e usar essas informações para planejar uma trajetória, como parar para pedestres que atravessam fora da faixa. A base aberta do modelo é o Cosmos Reason, da própria empresa de tecnologia, que permite aos pesquisadores personalizá-lo para seus casos de uso não comerciais.
Segundo a fabricante de chips, os pesquisadores também podem personalizar o modelo AR1 para realizar testes comparativos ou desenvolver aplicações experimentais para veículos autônomos. O Nvidia Drive Alpamayo-R1 estará disponível no Hugging Face e no GitHub , enquanto um subconjunto dos dados usados para treinar e avaliar os modelos está disponível no Nvidia Physical AI Open Datasets.
Pesquisadores da Nvidia afirmaram que o treinamento por reforço se mostrou eficaz para o pós-treinamento do AR1. Eles destacaram que os desenvolvedores também podem aprender a usar e pós-treinar modelos baseados no Cosmos usando raciocínio passo a passo. Os pesquisadores disseram que exemplos de inferência rápida e pós-treinamento avançado podem ser encontrados no Cosmos Cookbook . O guia completo para desenvolvedores de IA física aborda a curadoria de dados passo a passo, a avaliação de modelos e a geração de dados sintéticos.
Entretanto, a fabricante de chips afirmou que as possibilidades para aplicações baseadas Cosmossão praticamente ilimitadas. A gigante da tecnologia forneceu exemplos de aplicações baseadas Cosmos, incluindo LidarGen, Omniverse NuRec Fixer, Cosmos Policy e ProtoMotions3.
A empresa de tecnologia afirmou que o LidarGen foi o primeiro modelo do mundo a gerar dados lidar para simulações de veículos autônomos. Mencionou também que seu modelo Omniverse NuRec Fixer para simulação de robótica e veículos autônomos utiliza a Cosmos Predict da Nvidia.
O ProtoMotions3 é um framework de código aberto, acelerado por GPU, construído sobre as plataformas Nvidia Newton e Isaac Lab. De acordo com a fabricante de chips, o framework pode ser usado para treinar robôs humanoides simulados fisicamente e humanos digitais. Os modelos de base do mundo Cosmos (WFMs) podem ser usados para gerar cenas realistas.
A Nvidia também mencionou que os modelos de políticas podem ser treinados no Isaac SIM e no Isaac Lab. Os dados gerados pelos modelos de políticas podem então ser usados para o pós-treinamento dos Groot N para robótica.
Se você está lendo isso, já está na frente. Acompanhe nossa newsletter .