La Universidad de Tsinghua y Microsoft Research Asia entrenaron un modelo completo de IA utilizando únicamente datos falsos. No se utilizaron muestras del mundo real.
Todo el conjunto de datos se generó artificialmente mediante una nueva canalización llamada SynthSmith, y el sistema funcionó con chips Nvidia de principio a fin. El equipo no se limitó a realizar una prueba innovadora. Construyeron un modelo funcional con 7 mil millones de parámetros que superaba a modelos mucho más grandes entrenados con datos humanos.
Su artículo, publicado el 11 de enero en arXiv, afirma que el X-Coder que entrenaron superó a los modelos de codificación con 14 mil millones de parámetros, aunque nunca vio texto del mundo real.
“Un análisis exhaustivo revela que las leyes de escala se mantienen en nuestro conjunto de datos sintéticos”, escribieron los investigadores. Este equipo incluyó a investigadores de la Universidad de Tsinghua, Microsoft Research Asia y la Universidad de Wuhan.
La configuración de entrenamiento dependía en gran medida del hardware de Nvidia. Para el ajuste fino supervisado, utilizaron 128 chips Nvidia H20 durante 220 horas seguidas. Posteriormente, cambiaron a 32 chips H200 durante siete días completos para gestionar la fase de aprendizaje por refuerzo. No fueron decisiones aleatorias. El H20 está optimizado para la inferencia y el H200 está diseñado para un entrenamiento de alta gama. Estos son los chips más potentes disponibles para las empresas chinas en este momento, gracias a las exenciones de control de exportaciones que la administración Trump aprobó después de que Nvidia ejerciera una fuerte presión para que estuvieran disponibles en China.
Los investigadores afirmaron que el problema de escalabilidad no era el pipeline en sí. Se trataba de potencia de procesamiento.
Wu Jie, autor principal y estudiante dedent en Tsinghua, dijo que la verdadera razón por la que no habían llevado el proceso a modelos de 100 mil millones o billones de parámetros era simplemente "restricciones computacionales, más que limitaciones del proceso en sí"
Al publicar el código, esperan que otros puedan desarrollar el proyecto sin tener que pagar enormes costos de capacitación. El artículo también señala una tendencia en la IA.
Ahora se espera que los modelos “piensen” en períodos de tiempo más largos y manejen razonamientos complejos, lo que ha impulsado la necesidad de mucho más procesamiento durante la inferencia, no solo durante el entrenamiento.
Por otra parte, científicos chinos construyeron un nuevo chip llamado ACCEL utilizando partículas de luz, no electricidad. El chip (abreviatura de Chip Totalmente Analógico que Combina Electrónica tron Luz) se probó en un laboratorio y alcanzó 4,6 PFLOPS.
Eso es 3000 veces más rápido que el A100 de Nvidia, y el chip chino consumió 4 millones de veces menos energía. Esto lo convierte en uno de los chips jamás creados para tareas específicas como el reconocimiento de imágenes o la conducción autónoma.
Todavía no reemplazará a las CPU ni a los chips de los teléfonos inteligentes, pero el equipo cree que podría funcionar en dispositivos portátiles, vehículos eléctricos o fábricas inteligentes.
El chip se fabricó mediante un proceso de 20 años de antigüedad de Semiconductor Manufacturing International Corporation. Esto evitó la necesidad de máquinas de litografía avanzadas a las que China aún no puede acceder.
“La implementación de sistemas de computación fotónica solía ser un desafío debido al complicado diseño estructural y la vulnerabilidad al ruido y a los errores del sistema”, afirmó en un artículo.
El chip evita esto combinandotronfotónica y analógica en un nuevo marco. No gestiona tareas informáticas generales como la compresión de archivos, pero es ideal para la visión artificial y la detección en condiciones de poca luz.
Un detalle curioso: la energía necesaria para hacer funcionar los chips modernos durante una hora podría mantener a ACCEL funcionando durante 500 años. Esta baja demanda de energía también facilita la gestión de los problemas de calor, que limitan el tamaño de los chips.
Las funciones del chip incluyendentde tráfico, imágenes en condiciones de poca luz y visión en tiempo real, utilizando la luz ambiental directamente en el proceso de detección. El equipo afirmó que no es un chip de uso general, sino que satisface una necesidad muy específica.
La financiación provino del Programa Nacional de I+D Clave y de la Fundación Nacional de Ciencias Naturales de China. MakeSens, una empresa de chips de Pekín cofundada por uno de los investigadores, participó y recientemente también lanzó un chip analógico de bajo consumo.
Dai Qionghai de Tsinghua, uno de los líderes del proyecto, dijo que construir una nueva arquitectura informática era solo el primer paso.
“El reto más importante es llevar esta nueva arquitectura a aplicaciones prácticas, resolviendo grandes necesidades nacionales y públicas, que es nuestra responsabilidad”
El equipo no ha dicho nada sobre cuándo este chip podría llegar al mercado.
¿Quieres que tu proyecto esté presente en las mentes más brillantes del mundo de las criptomonedas? Preséntalo en nuestro próximo informe del sector, donde los datos se combinan con el impacto.