A Amazon Web Services anunciou na sexta-feira que instalará processadores da Cerebras em seus data centers, no âmbito de uma parceria plurianual focada em inferência de IA.
O acordo oferece à Amazon uma nova maneira de acelerar a forma como os modelos de IA respondem a comandos, escrevem código e lidam com solicitações de usuários em tempo real. A AWS afirmou que usará a tecnologia Cerebras, incluindo o Wafer-Scale Engine, para tarefas de inferência.
As empresas não divulgaram os termos financeiros. A instalação está planejada para o Amazon Bedrock dentro dos data centers da AWS, integrando a parceria a um dos principais produtos de IA da Amazon.
A AWS afirmou que o sistema combinará servidores com tecnologia Amazon Trainium, sistemas Cerebras CS-3 e a rede Elastic Fabric Adapter da Amazon.
Ainda este ano, a AWS também planeja oferecer os principais modelos de linguagem de código aberto e o Amazon Nova em hardware Cerebras. David Brown, vice-dent de Serviços de Computação e Aprendizado de Máquina da AWS, afirmou que a velocidade ainda é um grande problema na inferência de IA, especialmente para auxílio de codificação em tempo real e aplicativos interativos.
David afirmou: "A inferência é onde a IA agrega valor real aos clientes, mas a velocidade continua sendo um gargalo crítico para cargas de trabalho exigentes, como assistência de codificação em tempo real e aplicativos interativos."
A AWS afirmou que o design utiliza um método chamado desagregação de inferência. Isso significa dividir a inferência de IA em duas partes. A primeira parte é o processamento de prompts, também chamado de pré-preenchimento. A segunda parte é a geração de saída, também chamada de decodificação.
A AWS afirmou que os dois trabalhos se comportam de maneira muito diferente. O prefill é paralelo, exige muito poder computacional e requer largura de banda de memória moderada. O decode é serial, exige menos poder computacional edent muito mais da largura de banda da memória. O decode também consome a maior parte do tempo nesses casos, porque cada token de saída precisa ser produzido individualmente.
É por isso que a AWS está atribuindo hardware diferente a cada etapa. O Trainium cuidará do preenchimento automático. O Cerebras CS-3 cuidará da decodificação.
A AWS afirmou que a rede EFA de baixa latência e alta largura de banda conectará os dois lados, permitindo que o sistema funcione como um único serviço enquanto cada processador se concentra em uma tarefa separada.
David disse: “O que estamos construindo com o Cerebras resolve isso: ao dividir a carga de trabalho de inferência entre o Trainium e o CS-3 e conectá-los com o Elastic Fabric Adapter da Amazon, cada sistema faz o que faz de melhor. O resultado será uma inferência uma ordem de magnitude mais rápida e com desempenho superior ao que está disponível atualmente.”
A AWS também afirmou que o serviço será executado no AWS Nitro System, que é a camada base de sua infraestrutura em nuvem.
Isso significa que os sistemas Cerebras CS-3 e as instâncias baseadas em Trainium devem operar com a mesma segurança, isolamento e consistência que os clientes da AWS já utilizam.
O anúncio também oferece à Amazon mais uma oportunidade para promover o Trainium contra chips da Nvidia, AMD e outras grandes empresas de semicondutores. A AWS descreve o Trainium como seu chip de IA próprio, desenvolvido para oferecer desempenho escalável e custo-benefício em treinamento e inferência.
A AWS afirmou que dois grandes laboratórios de IA já se comprometeram com a plataforma. A Anthropic nomeou a AWS como sua principal parceira de treinamento e utiliza o Trainium para treinar e implantar modelos. A OpenAI consumirá 2 gigawatts de capacidade do Trainium por meio da infraestrutura da AWS para o Stateful Runtime Environment, modelos de vanguarda e outras cargas de trabalho avançadas.
A AWS acrescentou que o Trainium3 teve umatronadoção desde seu lançamento recente, com clientes de diversos setores alocando grande capacidade.
A Cerebras está cuidando da decodificação. A AWS afirmou que o CS-3 é dedicado à aceleração da decodificação, o que lhe confere mais espaço para tokens de saída rápidos. A Cerebras afirma que o CS-3 é o sistema de inferência de IA mais rápido do mundo e oferece largura de banda de memória milhares de vezes maior do que a GPU mais rápida.
A empresa afirmou que os modelos de raciocínio agora representam uma parcela maior do trabalho de inferência e geram mais tokens por solicitação à medida que resolvem os problemas. A Cerebras também informou que a OpenAI, a Cognition, a Mistral e outras empresas utilizam seus sistemas para cargas de trabalho exigentes, especialmente para programação gênica.
Andrew Feldman, fundador e diretor executivo da Cerebras Systems, afirmou: "A parceria com a AWS para construir uma solução de inferência desagregada levará a inferência mais rápida a uma base global de clientes."
Andrew acrescentou: "Todas as empresas do mundo poderão se beneficiar da inferência extremamente rápida em seu ambiente AWS existente."
O acordo aumenta a pressão sobre a Nvidia, que em dezembro assinou um contrato de licenciamento de US$ 20 bilhões com a Groq e planeja apresentar na próxima semana um novo sistema de inferência usando a tecnologia da Groq.
Se você quer uma entrada mais tranquila no mundo das criptomoedas DeFi , sem a euforia habitual, comece com este vídeo gratuito.