Nvidia ha presentado nuevas herramientas y desarrollo de modelos abiertos para IA física y digital, incluyendo Nvidia Drive Alpamayo-R1 (AR1) para conducción autónoma. El gigante tecnológico anunció en la conferencia NeurIPS AI que está ampliando su conjunto de modelos, herramientas y conjuntos de datos de IA abiertos.
Nvidia afirmó que sus nuevos modelos abiertos de IA física y digital buscan respaldar la investigación en la industria de la IA y más allá. Destacó que su Alpamayo-R1 es el primer modelo de razonamiento abierto, visión, lenguaje y acción (VLA) a escala industrial del mundo para vehículos autónomos. El fabricante de chips también insinuó el lanzamiento de nuevos conjuntos de datos y modelos para la seguridad y el habla de la IA.
Los investigadores de la empresa tecnológica han preparado más de 70 artículos, talleres y charlas para su presentación en la conferencia. La compañía comparte sus proyectos innovadores, que abarcan la investigación médica, la conducción autónoma y el razonamiento basado en IA.
El gigante tecnológico demostró un mayor compromiso con el código abierto en el evento de IA, un esfuerzo reconocido por la plataforma de evaluación comparativa de IA Artificial Analysis con su nuevo Índice de Apertura. El Índice de Apertura de Artificial Analysis calificó la familia de herramientas de IA Nemotron de la compañía tron una de las mejores disponibles. La calificación se basa en la cantidad de información técnica compartida, la facilidad de uso de las licencias de los modelos y la claridad de las regulaciones sobre el uso de datos.
Mientras tanto, AR1 (Alpamayo-R1) integra el razonamiento de IA en cadena de pensamiento con la planificación de rutas para permitir la autonomía de nivel 4 y mejorar la seguridad de los vehículos autónomos (VA) en diversas situaciones viales. El fabricante de chips indicó que las iteraciones anteriores de modelos de conducción autónoma presentaban dificultades en situaciones como intersecciones concurridas, un coche aparcado en doble fila en un carril bici o la proximidad de un cierre de carretera. Sin embargo, el razonamiento proporciona a los vehículos autónomos la capacidad de conducir como humanos.
El modelo AR1 logra esto desglosando escenarios y razonando cada paso para considerar todos los resultados posibles. Posteriormente, utiliza datos contextuales para determinar el curso de acción más eficaz.
Nvidia afirma que el AR1 aprovecha el razonamiento en cadena de pensamiento que le permite procesar datos a lo largo de su trayectoria y usar la información para planificarla, como detenerse ante peatones imprudentes. La base abierta del modelo se basa en Cosmos Reason de la empresa tecnológica, lo que permite a los investigadores personalizarlo para sus casos de uso no comerciales.
Los investigadores también pueden personalizar el modelo AR1 para realizar pruebas comparativas o desarrollar aplicaciones experimentales para vehículos autónomos, según el fabricante de chips. Nvidia Drive Alpamayo-R1 estará disponible en Hugging Face y GitHub , mientras que un subconjunto de los datos utilizados para entrenar y evaluar los modelos está disponible en Nvidia Physical AI Open Datasets.
Los investigadores de Nvidia afirmaron que el entrenamiento de refuerzo había demostrado ser eficaz para el postentrenamiento de AR1. Señalaron que los desarrolladores también pueden aprender a usar y postentrenar modelos basados en Cosmos mediante razonamiento paso a paso. Los investigadores indicaron que se pueden encontrar ejemplos de inferencia de inicio rápido y postentrenamiento avanzado en el libro de recetas Cosmos . Esta guía completa para desarrolladores de IA física abarca la curación de datos paso a paso, la evaluación de modelos y la generación de datos sintéticos.
Mientras tanto, el fabricante de chips afirmó que las posibilidades de las aplicaciones basadas en Cosmosson prácticamente ilimitadas. El gigante tecnológico proporcionó ejemplos de aplicaciones basadas en Cosmos, como LidarGen, Omniverse NuRec Fixer, Cosmos Policy y ProtoMotions3.
La empresa tecnológica se jactó de que LidarGen fue el primer modelo del mundo en generar datos lidar para simulaciones de vehículos autónomos. También mencionó que su modelo Omniverse NuRec Fixer para simulación de robótica y vehículos autónomos se basa en Cosmos Predict de Nvidia.
ProtoMotions3 es un framework de código abierto acelerado por GPU, basado en Nvidia Newton e Isaac Lab. Según el fabricante de chips, este framework permite entrenar robots humanoides simulados físicamente y humanos digitales. Los modelos de base del mundo Cosmos (WFM) permiten generar escenas realistas.
Nvidia también mencionó que los modelos de políticas se pueden entrenar en Isaac SIM e Isaac Lab. Los datos generados a partir de estos modelos se pueden utilizar para entrenar posteriormente los Groot N para robótica.
Afila tu estrategia con mentoría + ideas diarias: 30 días de acceso gratuito a nuestro programa de trading