El gigante de los chips NVIDIA se prepara para presentar un nuevo y potente procesador de inteligencia artificial diseñado para acelerar la forma en que los chatbots y otras herramientas de IA generan respuestas, lo que podría hacer que los sistemas actuales, como ChatGPT, parezcan lentos en comparación.
La nueva plataforma, cuyo debut está previsto para la conferencia anual de desarrolladores GTC de NVIDIA, está optimizada para la inferencia de IA, la etapa en la que los modelos entrenados generan respuestas a las preguntas de los usuarios. A diferencia de las GPU tradicionales, diseñadas para gestionar tanto el entrenamiento como la inferencia, el nuevo procesador se centra específicamente en ofrecer respuestas más rápidas y eficientes.
Si el producto llega a comercializarse, supondrá el primer resultado tangible del acuerdo de diciembre que incorporó los fundadores de Groq , cuya empresa se especializa en hardware de procesamiento de IA de alta velocidad.
A finales del año pasado, NVIDIA habría invertido unos 20.000 millones de dólares en la adquisición de licencias de tecnología de la empresa emergente de chips Groq y en la contratación de personal clave, incluido su director ejecutivo. Casi al mismo tiempo, el director ejecutivo de NVIDIA, Jensen Huang, comunicó a los empleados: «Planeamos integrar los procesadores de baja latencia de Groq en la arquitectura de la fábrica de IA de NVIDIA, ampliando así la plataforma para dar servicio a una gama aún más amplia de cargas de trabajo de inferencia de IA y en tiempo real»
Ahora, se espera que el nuevo chip de inferencia procese consultas de IA complejas a alta velocidad, y OpenAI y otros clientes líderes lo adopten, según The Wall Street Journal. El informe también reveló que el nuevo chip podría gestionar cerca del 10 % de la carga de trabajo de inferencia de OpenAI.
Durante una reciente conferencia telefónica sobre resultados, el CEO de NVIDIA dio a entender que se presentarán varios productos nuevos en el próximo evento GTC, a menudo descrito como el "Super Bowl de la IA". Comentó: "Tengo algunas ideas geniales que me gustaría compartir con ustedes en GTC".
La mayoría de los analistas coinciden en que el chip estilo Groq podría formar parte de la gama de productos. También afirman que su diseño podría revelar cómo NVIDIA pretende abordar las limitaciones de memoria en la computación de inferencia. Estas plataformas suelen funcionar con memoria de alto ancho de banda (HBM). Sin embargo, últimamente ha sido difícil conseguir HBM.
Según fuentes internas, la empresa planea usar SRAM en el chip en lugar de la RAM dinámica asociada con HBM. Idealmente, la SRAM es más accesible y puede mejorar el rendimiento de las cargas de trabajo de razonamiento de IA.
Si se presenta el chip, podría representar un gran avance para la compañía de chips y los modelos de IA entrenados. Sin embargo, al hablar sobre su posible lanzamiento, Sid Sheth, fundador y director ejecutivo de d-Matrix, dejó entrever ciertas dudas sobre su desarrollo. Señaló que, si bien NVIDIA sigue siendo el líder indiscutible en el entrenamiento de IA, la inferencia representa un panorama muy diferente. Comentó: «Los desarrolladores pueden recurrir a competidores distintos de NVIDIA, ya que ejecutar modelos de IA terminados no requiere el mismo tipo de programación que su entrenamiento»
Sin embargo, otros gigantes tecnológicos también están impulsando la computación inferencial. Esta semana, Meta presentó cuatro procesadores diseñados específicamente para la inferencia, lo que llevó a un inversor de Silicon Valley a afirmar que la industria podría estar entrando en una fase en la que NVIDIA ya no domina el mercado.
Sin embargo, más recientemente, June Paik, directora ejecutiva de FuriosaAI, un rival de NVIDIA, al comentar sobre la ventaja de la computación de inferencia fácilmente implementable, advirtió que la mayoría de los centros de datos no pueden albergar las GPU refrigeradas por líquido más recientes.
No obstante, a pesar de sus preocupaciones, los analistas de Bank of America prevén que las cargas de trabajo de inferencia representarán el 75 % del gasto en centros de datos de IA para 2030, cuando el mercado alcance aproximadamente 1,2 billones de dólares, frente al 50 % del año pasado. Ben Bajarin, analista tecnológico de Creative Strategies, también afirmó que los centros de datos del futuro no se ajustarán a un modelo único, anticipando que las empresas adoptarán diferentes enfoques para el desarrollo de chips e instalaciones.
NVIDIA también ha lanzado recientemente sus chips de IA de próxima generación, los chips Vera Rubin, anticipando que el auge de las plataformas de IA de razonamiento, como DeepSeek, impulsará una demanda de computación aún mayor. La compañía afirmó que estos chips ayudarían a entrenar modelos de IA más grandes y proporcionarían resultados más sofisticados a una base de usuarios más amplia.
Según Huang, Rubin también llegará al mercado en la segunda mitad de 2026, con una versión "ultra" de gama alta que se lanzará en 2027.
También explicó que un único sistema Rubin combinaría 576 GPU individuales en un solo chip. Actualmente, el chip Blackwell de NVIDIA agrupa 72 GPU en su sistema NVL72, lo que significa que Rubin contará con una memoria más avanzada.
Si estás leyendo esto, ya estás al tanto. Sigue leyendo nuestro boletín .