亚马逊的云计算部亚马逊Web服务(AWS)设计了一个定制的冷却系统,以保持NVIDIA强大的新人工智能(AI)芯片的温度。
周三, AWS宣布,它开发了行李内热交换器(IRHX),这是其定制的液体冷却系统,专为具有高性能NVIDIA GPU的数据中心而设计。
这些芯片被用来训练如今如此流行的大型AI模型,例如聊天机器人或图像发生器,是世界上最大的硬件。他们在AI工作量中的普及使传统的冷却解决方案尤为紧张,尤其是基于空气的冷却。
亚马逊没有将其留在市场上提供可扩展的冷却解决方案,而是必须发挥创造力并解决它。 IRHX适用于改造和新的数据中心应用程序,而无需重新设计。它通过将冷藏液循环靠近服务器的行循环,从而从紧密包装的GPU中取出热量。
AWS的计算和机器学习服务dentDave Brown解释说,标准冷却解决方案不适合其需求。他说,这些选择会浪费太多数据中心空间,并且使用水效率低下。尽管此类系统可能适用于小型提供商的一些机柜,但他指出,他们缺乏支持AWS规模所需的液体冷却能力。
AWS还刚刚推出了P6E实例,该实例利用了NVIDIA的GB200 NVL72,这是一个密集的超级计算平台,其中包含一个架子中的Blackwell GPU 这些旨在应对巨大的AI模型和生成AI任务的计算密集型性质。
到目前为止,只有Microsoft和Coreweave等公司才提供了下一级GPU集群。现在,AWS客户可以访问云中最新,最先进的GPU机器学习培训培训基础设施,并由最新的,水冷的NVIDIA A100 Tensor Core GPU提供支持。
IRHX在安全的温度下将这些集群袋保持在不加热的情况下提供最佳性能。通过将IRHX直接烘烤到其数据中心设计中,AWS可以避免等待整个结构进行液体冷却或为昂贵的结构付费。
布朗在宣布发布P6E时指出,通过将GB200 NVL72系统与亚马逊的IRHX相结合,客户可以按大规模利用无与伦比的计算能力。它还将使开发人员,研究人员和公司能够比过去更快,更有效地培训更大的AI模型。
在进行过程中,在内部进行冷却技术的努力揭示了更多有关亚马逊更广泛的游戏,以拥有更多的基础架构。近年来,AWS花费了大量开发其芯片,存储系统和网络设备来为其云服务提供动力。
这些进步使亚马逊能够进一步减轻对第三方供应商的依赖,并在运营绩效和成本之间取得平衡。
这种方法已经获得了回报。在2025年第一季度,AWS自该部门创建以来的运营利润率最高,现在是亚马逊总体盈利能力的主要发动机。 IRHX发布扩展了AWS在云行业的创新领导力和基础设施足迹。
其他技术巨人也在做同样的事情。例如,微软构建了自己的AI芯片和自定义冷却系统(辅助机),以与它们一起使用。 Google和Meta还正在研究构建针对AI工作负载的硬件和系统的方法。
但是,亚马逊具有至关重要的优势 - 它在全球数据中心的庞大占地面积以及多年来建立和部署自定义硬件的经验。 IRHX可以通过简化其AI-Ready基础架构,使其更高效,可持续性和可扩展性增加。
钥匙差线:秘密工具加密项目用于获得保证媒体覆盖