Amazon lanzó esta semana su nuevo chip de entrenamiento de inteligencia artificial, Trainium3, avanzando directamente hacia el dominio del hardware en manos de Nvidia y Google.
El acelerador ya está funcionando en un pequeño grupo de centros de datos de AWS y estará disponible para los clientes el martes, según una entrevista con Dave Brown,dent de Amazon Web Services. Dave afirmó que la compañía no está tomando medidas drásticas.
"A principios del próximo año, empezaremos a escalar muy rápidamente", afirmó. El objetivo es simple: vender más recursos informáticos directamente desde los racks de Amazon en lugar de ver cómo los desarrolladores destinan ese gasto a otras áreas.
AWS sigue liderando la nube global en términos de computación y almacenamiento alquilados. Este liderazgo no se ha trasladado de forma clara al entrenamiento de IA a gran escala. Algunos desarrolladores recurren a Microsoft debido a su vínculo con OpenAI.
Otros recurren a Google y a sus chips internos. Amazon ahora utiliza Trainium3 para atraer a equipos sensibles al precio. La propuesta básica es reducir el coste por unidad de trabajo manteniendo todo dentro de AWS.
Trainium3 llega aproximadamente un año después de que Amazon lanzara su última versión. Ese ritmo se sitúa entre los más rápidos dentro de los estándares de chips. Cuando el chip se puso en marcha por primera vez en agosto, un ingeniero de AWS bromeó: «Lo principal que esperamos es que no veamos ningún problema». El rápido ritmo de actualización también refleja el plan público de Nvidia de lanzar un nuevo chip cada año.
Amazon afirma que los chips Trainium ejecutan el procesamiento pesado de los modelos de IA a un menor coste y un mejor consumo de energía que las GPU de gama alta de Nvidia. Dave afirmó: «Estamos muy satisfechos con nuestra capacidad para obtener la relación calidad-precio adecuada con Trainium». La compañía está apostando fuertemente por ese factor de precio a medida que aumenta el tamaño de los modelos y los costes de formación siguen aumentando.
Todavía hay un límite. Los chips de Amazon no incorporan las bibliotecas de software avanzadas que permiten a los equipos trabajar con rapidez en el hardware de Nvidia. Bedrock Robotics, que utiliza IA para controlar equipos de construcción sin control humano, ejecuta sus sistemas principales en servidores de AWS. Cuando entrena modelos para guiar una excavadora, sigue utilizando chips de Nvidia. Kevin Peterson, director de tecnología de Bedrock Robotics, afirmó: «Necesitamos que sea eficiente y fácil de usar. Eso es Nvidia».
Actualmente, la mayor parte de la capacidad de Trainium se destina a Anthropic. Los chips se ejecutan en centros de datos de Indiana, Misisipi y Pensilvania. A principios de este año, AWS anunció que había conectado más de 500.000 chips de Trainium para entrenar los modelos más recientes de Anthropic. Amazon planea aumentar esa cifra a un millón de chips para finales de año.
Amazon está vinculando el futuro de Trainium al crecimiento de Anthropic y a sus propios servicios de IA. Fuera de Anthropic, la compañía ha identificado muy pocos clientes importantes hasta el momento. Esto deja a los analistas con datos limitados para evaluar el rendimiento de Trainium en un uso más amplio.
Anthropic también distribuye su propio riesgo computacional. Sigue utilizando las Unidades de Procesamiento Tensorial de Google y firmó un acuerdo este año con Google que le proporciona acceso a decenas de miles de millones de dólares en potencia computacional.
Amazon presentó Trainium3 durante re: Invent, su conferencia anual de usuarios. El evento se ha convertido en una exhibición continua de herramientas e infraestructura de IA dirigida a desarrolladores que crean nuevos modelos y empresas dispuestas a pagar por acceso a gran escala.
El martes, Amazon también actualizó su principal familia de modelos de IA, conocida como Nova. La nueva línea Nova 2 incluye una versión llamada Omni.
Omni acepta texto, imágenes, voz o video como entrada. Puede responder tanto con texto como con imágenes. Amazon vende una combinación de tipos de entrada y modelos de bajo costo en un paquete diseñado para uso diario a gran escala.
Amazon sigue fijando el precio de sus modelos en función de su rendimiento por dólar. Los modelos Nova anteriores no se situaron entre los primeros puestos en las clasificaciones de pruebas estándar que evalúan las respuestas a preguntas fijas. La compañía se basa en el uso en vivo en lugar de las tablas de pruebas.
Rohit Prasad, quien dirige gran parte del trabajo de modelos de Amazon y su equipo de Inteligencia Artificial General, dijo: "El verdadero punto de referencia es el mundo real", y agregó que espera que los nuevos modelos compitan en entornos reales.
Amazon también está abriendo un control más profundo de modelos para usuarios avanzados a través de un nuevo producto llamado Nova Forge que permite a los equipos extraer versiones de los modelos Nova antes de que finalice el entrenamiento y darles forma utilizando sus propios datos.
Reddit ya utiliza Nova Forge para crear un modelo que comprueba si una publicación infringe las normas de seguridad. Chris Slowe, director de tecnología de Reddit, afirmó que muchos usuarios de IA buscan el modelo más grande posible para cada tarea en lugar de entrenar uno con un enfoque específico. «El hecho de que podamos convertirlo en un experto en nuestra área específica es lo que le da valor», afirmó.
Con Trainium3 ya activo en centros de datos y la actualización simultánea de los modelos Nova, Amazon está impulsando dos frentes a la vez. La lucha por el hardware se libra contra Nvidia. El impulso del modelo se dirige contra OpenAI, respaldado por Microsoft, y Google. La siguiente fase se centra ahora en el uso práctico del cliente a escala completa de la nube.
Reclama tu asiento gratuito en una comunidad exclusiva de comercio de criptomonedas , limitada a 1000 miembros.