Quando uma falha no sistema de refrigeração de um centro de dados em Aurora, Illinois, interrompeu a negociação de contratos futuros e opções na Bolsa Mercantil de Chicago, a interrupção expôs como uma única falha técnica pode afetar os mercados globais simultaneamente.
A interrupção começou em 27 de novembro em uma instalação da CyrusOne, cujo equipamento de refrigeração apresentou defeito e elevou as temperaturas a níveis suficientes para desligar os servidores que processavamtracrelacionados a ações, câmbio, títulos e commodities.
A paralisação durou horas e congelou atividades ligadas a trilhões de dólares, segundo a Bloomberg. Isso mostrou como mercados que funcionam ininterruptamente ainda podem ser afetados pelo superaquecimento de máquinas dentro de um único prédio.
As instalações que dão suporte à plataforma CME fazem parte de um complexo que a KKR & Co. e a Global Infrastructure Partners compraram em 2022. A CyrusOne afirmou que "uma falha no sistema de refrigeração" afetou várias unidades de resfriamento simultaneamente, o que causou o desligamento dos servidores por segurança.
Assim que a paralisação começou, a CyrusOne instalou equipamentos de refrigeração temporários para estabilizar as temperaturas enquanto sua equipe trabalhava para restabelecer os sistemas principais. A empresa afirma que sua unidade em Aurora utiliza chillers resfriados a ar e ar frio externo quando as temperaturas caem abaixo de -1°C (30°F), e os registros meteorológicos indicavam -2°C (28°F) na região naquela manhã.
A CyrusOne afirma em seu site que as instalações incluem unidades de refrigeração extras projetadas para proteção contra essas falhas, mas não está claro se algum desses sistemas de backup funcionou durante odent.
O encerramento das atividades da CME ocorreu em um momento em que os data centers estão se tornando cada vez mais importantes para os mercados, as corretoras de criptomoedas, os desenvolvedores de IA e os provedores de nuvem.
Esses edifícios abrigam fileiras de servidores repletos de chips que armazenam e processam enormes quantidades de informações. Seu poder computacional executa tudo, desde feeds de mercado e análises de blockchain até carteiras na nuvem.
Esses servidores consomem tanta eletricidade que um centro de dados pode queimar 50 vezes mais energia por metro quadrado do que um prédio de escritórios, e a maior parte dessa energia se transforma em calor residual que precisa ser removido para evitar falhas.
Os operadores tentam instalar o máximo de servidores possível em cada sala para poderem alugar mais recursos computacionais aos clientes, mas isso também gera mais calor.
O resfriamento desses locais passou a representar uma grande parte do custo total. Alguns projetos chegam a gastar até 15% do orçamento apenas com refrigeração. Os locais mais antigos dependiam de ar frio. Ventiladores impulsionavam o ar refrigerado sobre as estantes, e o ar quente expelido era direcionado para fora.
Mas, com o aumento da demanda por IA por volta de 2022, as empresas começaram a adotar o resfriamento líquido. O líquido frio circula por placas sob os chips ou preenche tanques onde os servidores ficam submersos. Alguns sistemas utilizam líquidos especiais com baixo ponto de ebulição que evaporam ao entrar em contato com os chips quentes e, em seguida, condensam-se novamente em forma líquida.
Os líquidos podem absorver mais calor do que o ar, mas isso aumenta o risco. Um vazamento pode danificar equipamentos caros e deixar os sistemas offline.
Uma vez que o calor é coletado, o líquido ou o ar o transporta para um circuito de água gelada que o leva até uma torre de resfriamento ou chiller industrial. Essas torres também consomem grandes quantidades de água, pois parte dela evapora durante o processo de resfriamento. Muitas comunidades têm manifestado preocupação com o consumo excessivo de água, especialmente em regiões que já enfrentam escassez hídrica.
Quando um centro de dados superaquece, os chips podem ser danificados, os dados podem ser perdidos e os serviços podem falhar. Em novembro, a Cloudflare sofreu interrupções que derrubaram sites como X e ChatGPT.
Problemas isolados na Amazon Web Services, Microsoft e CrowdStrike causaram a interrupção de partes da internet por várias horas. Esses eventos demonstram o quanto da vida cotidiana depende de algumas poucas empresas que mantêm uma infraestrutura sempre disponível.
As operadoras implementam redundância com geradores de reserva, unidades de refrigeração extras e até mesmo instalações totalmente duplicadas. Mas a interrupção da CME demonstra que mesmo essas camadas de segurança podem falhar quando várias partes apresentam problemas simultaneamente.
Um chiller com defeito deixou um importante operador do mercado offline por tempo suficiente para afetartracem todo o mundo, e mesmo com equipamentos de refrigeração extras no local, ainda não se sabe se a redundância ajudou em alguma coisa.
Junte-se a uma comunidade premium de negociação de criptomoedas gratuitamente por 30 dias - normalmente US$ 100/mês.