Cuando una falla de refrigeración dentro de un centro de datos en Aurora, Illinois, detuvo el comercio de futuros y opciones en la Bolsa Mercantil de Chicago, la interrupción expuso cómo una falla técnica puede afectar a los mercados globales al mismo tiempo.
La interrupción comenzó el 27 de noviembre dentro de una instalación administrada por CyrusOne, cuyo equipo de enfriamiento se averió y elevó las temperaturas lo suficiente como para cerrar los servidores que manejabantracvinculados a acciones, divisas, bonos y materias primas.
El paro duró horas y paralizó la actividad vinculada a billones de dólares, según Bloomberg. Demostró cómo los mercados que operan sin parar aún pueden verse colapsados por el sobrecalentamiento de las máquinas dentro de un mismo edificio.
La instalación que respalda la plataforma CME es parte de un campus que KKR & Co. y Global Infrastructure Partners compraron en 2022. CyrusOne dijo que "una falla en la planta de enfriamiento" afectó varias unidades de enfriamiento al mismo tiempo, lo que provocó que los servidores se apagaran por seguridad.
Una vez que comenzó el cierre, CyrusOne instaló equipos de refrigeración temporales para estabilizar las temperaturas mientras su personal trabajaba para restablecer los sistemas principales. La compañía afirma que su planta de Aurora utiliza enfriadores de aire y aire exterior frío cuando las temperaturas bajan de -1 °C, y los registros meteorológicos indicaban -2 °C en la zona esa mañana.
CyrusOne afirma en su sitio web que la instalación incluye unidades de enfriamiento adicionales diseñadas para proteger contra estas fallas, pero no está claro si alguna de esas copias de seguridad hizo algo durante estedent.
El cierre de CME se produjo en un momento en que los centros de datos están adquiriendo mayor importancia para los mercados, los intercambios de criptomonedas, los desarrolladores de inteligencia artificial y los proveedores de la nube.
Estos edificios albergan filas de servidores repletos de chips que almacenan y procesan enormes cantidades de información. Su potencia de procesamiento gestiona todo, desde las fuentes de mercado hasta el análisis de blockchain y las billeteras en la nube.
Estos servidores utilizan tanta electricidad que un centro de datos puede quemar 50 veces más energía por pie cuadrado que un edificio de oficinas, y la mayor parte de esa energía se convierte en calor residual que debe eliminarse para evitar fallas.
Los operadores intentan colocar tantos servidores como sea posible en cada sala para poder alquilar más recursos informáticos a los clientes, pero eso también genera más calor.
La refrigeración de estos sitios se ha convertido en una parte importante del coste total. Algunos proyectos destinan hasta el 15 % de su presupuesto solo a la refrigeración. Los sitios más antiguos dependían del aire frío. Los ventiladores impulsaban el aire frío a través de los racks y el escape caliente se expulsaba al exterior.
Pero, a medida que las cargas de trabajo de IA se intensificaron alrededor de 2022, las empresas comenzaron a adoptar la refrigeración líquida. El líquido frío circula por las placas bajo los chips o llena los tanques donde se sumergen los servidores. Algunos sistemas utilizan líquidos especiales con puntos de ebullición bajos que se evaporan al entrar en contacto con los chips calientes y luego se condensan de nuevo.
El líquido puede absorber más calor que el aire, pero supone un riesgo. Una fuga puede dañar hardware costoso y dejar los sistemas fuera de servicio.
Una vez captado el calor, el líquido o el aire lo transporta a un circuito de agua fría que lo transporta a una torre de refrigeración o a un enfriador industrial. Estas torres también consumen grandes cantidades de agua, ya que una parte se evapora durante el proceso de enfriamiento. Muchas comunidades han expresado su preocupación por el consumo excesivo de agua, especialmente en regiones que ya sufren escasez.
Cuando un centro de datos se sobrecalienta, los chips pueden dañarse, se pueden perder datos y los servicios pueden fallar. Las interrupciones de noviembre afectaron a Cloudflare, bloqueando sitios como X y ChatGPT.
Problemas separados en Amazon Web Services, Microsoft y CrowdStrike bloquearon partes de internet durante horas. Estos eventos demuestran cuánto depende la vida diaria de unas pocas empresas que mantienen una infraestructura siempre activa.
Los operadores incorporan redundancia con generadores de respaldo, unidades de refrigeración adicionales e incluso campus duplicados. Pero la interrupción del servicio de CME demuestra que incluso estas capas pueden fallar cuando varias piezas se rompen a la vez.
Un enfriador defectuoso dejó fuera de servicio a un importante operador del mercado durante suficiente tiempo como para afectartracen todo el mundo, e incluso con equipos de refrigeración adicionales en el sitio, todavía no se sabe si algún tipo de redundancia ayudó en algo.
Únase a una comunidad premium de comercio de criptomonedas gratis durante 30 días (normalmente $100/mes).