Amazon Web Services anunció el viernes que instalará procesadores de Cerebras en sus centros de datos en el marco de una colaboración plurianual centrada en la inferencia de inteligencia artificial.
El acuerdo le brinda a Amazon una nueva forma de acelerar la manera en que los modelos de IA responden a las preguntas, escriben código y gestionan las solicitudes de los usuarios en tiempo real. AWS indicó que utilizará la tecnología Cerebras, incluido el motor Wafer-Scale Engine, para las tareas de inferencia.
Las empresas no revelaron los términos financieros. La implementación está prevista para Amazon Bedrock dentro de los centros de datos de AWS, lo que sitúa la colaboración directamente dentro de uno de los principales productos de IA de Amazon.
AWS ha indicado que el sistema combinará servidores con tecnología Amazon Trainium, sistemas Cerebras CS-3 y la red Elastic Fabric Adapter de Amazon.
A finales de este año, AWS también planea ofrecer los principales modelos de lenguaje de código abierto y Amazon Nova en el hardware de Cerebras. David Brown,dent de Servicios de Computación y Aprendizaje Automático de AWS, afirmó que la velocidad sigue siendo un problema importante en la inferencia de IA, especialmente para la asistencia de codificación en tiempo real y las aplicaciones interactivas.
David afirmó: “La inferencia es donde la IA aporta un valor real a los clientes, pero la velocidad sigue siendo un cuello de botella crítico para cargas de trabajo exigentes como la asistencia de codificación en tiempo real y las aplicaciones interactivas”
AWS indicó que el diseño utiliza un método llamado desagregación de inferencia. Esto significa dividir la inferencia de IA en dos partes. La primera parte es el procesamiento de solicitudes, también llamado prellenado. La segunda parte es la generación de resultados, también llamada decodificación.
AWS indicó que ambos procesos se comportan de manera muy diferente. El prellenado es paralelo, requiere mucha capacidad de procesamiento y un ancho de banda de memoria moderado. La decodificación es serial, requiere menos capacidad de procesamiento ydent mucho más del ancho de banda de memoria. La decodificación también consume la mayor parte del tiempo en estos casos, ya que cada token de salida debe generarse individualmente.
Por eso, AWS asigna hardware diferente a cada etapa. Trainium se encargará del prellenado. Cerebras CS-3 se encargará de la decodificación.
AWS afirmó que la red EFA de baja latencia y alto ancho de banda conectará ambos lados para que el sistema pueda funcionar como un solo servicio mientras cada procesador se centra en una tarea separada.
David comentó: “Lo que estamos desarrollando con Cerebras resuelve ese problema: al dividir la carga de trabajo de inferencia entre Trainium y CS-3, y conectarlos con el Adaptador Elastic Fabric de Amazon, cada sistema realiza aquello para lo que es más eficaz. El resultado será una inferencia mucho más rápida y con un rendimiento superior al de las soluciones actuales”
AWS también indicó que el servicio se ejecutará en el sistema AWS Nitro, que es la capa base de su infraestructura en la nube.
Esto significa que se espera que los sistemas Cerebras CS-3 y las instancias basadas en Trainium funcionen con la misma seguridad, aislamiento y consistencia que ya utilizan los clientes de AWS.
Este anuncio también le brinda a Amazon otra oportunidad para competir con Trainium frente a los chips de Nvidia, AMD y otras grandes compañías de semiconductores. AWS describe Trainium como su chip de IA propio, diseñado para ofrecer un rendimiento escalable y una alta rentabilidad tanto en el entrenamiento como en la inferencia.
AWS anunció que dos importantes laboratorios de IA ya se han comprometido con la plataforma. Anthropic ha designado a AWS como su socio principal de capacitación y utiliza Trainium para entrenar e implementar modelos. OpenAI consumirá 2 gigavatios de capacidad de Trainium a través de la infraestructura de AWS para Stateful Runtime Environment, modelos de vanguardia y otras cargas de trabajo avanzadas.
AWS agregó que Trainium3 ha tenido unatronacogida desde su reciente lanzamiento, con clientes de diversas industrias que han comprometido una gran capacidad.
Cerebras se encarga de la decodificación. AWS indicó que CS-3 está dedicado a la aceleración de la decodificación, lo que le proporciona mayor capacidad para generar tokens de salida rápidamente. Cerebras afirma que CS-3 es el sistema de inferencia de IA más rápido del mundo y ofrece un ancho de banda de memoria miles de veces superior al de la GPU más rápida.
La compañía afirmó que los modelos de razonamiento ahora representan una mayor proporción del trabajo de inferencia y generan más tokens por solicitud a medida que resuelven problemas. Cerebras también indicó que OpenAI, Cognition, Mistral y otras empresas utilizan sus sistemas para cargas de trabajo exigentes, especialmente para la codificación de agentes.
Andrew Feldman, fundador y director ejecutivo de Cerebras Systems, afirmó: "La colaboración con AWS para desarrollar una solución de inferencia desagregada permitirá ofrecer la inferencia más rápida a una base de clientes global"
Andrew añadió: "Todas las empresas del mundo podrán beneficiarse de una inferencia increíblemente rápida dentro de su entorno AWS existente"
Este acuerdo aumenta la presión sobre Nvidia, que en diciembre firmó un acuerdo de licencia de 20.000 millones de dólares con Groq y planea presentar la próxima semana un nuevo sistema de inferencia que utiliza tecnología de Groq.
Si desea un punto de entrada más tranquilo al cripto DeFi sin la publicidad habitual, comience con este video gratuito.