亞馬遜的雲計算部亞馬遜Web服務(AWS)設計了一個定製的冷卻系統,以保持NVIDIA強大的新人工智能(AI)芯片的溫度。
週三, AWS宣佈,它開發了行李內熱交換器(IRHX),這是其定製的液體冷卻系統,專爲具有高性能NVIDIA GPU的數據中心而設計。
這些芯片被用來訓練如今如此流行的大型AI模型,例如聊天機器人或圖像發生器,是世界上最大的硬件。他們在AI工作量中的普及使傳統的冷卻解決方案尤爲緊張,尤其是基於空氣的冷卻。
亞馬遜沒有將其留在市場上提供可擴展的冷卻解決方案,而是必須發揮創造力並解決它。 IRHX適用於改造和新的數據中心應用程序,而無需重新設計。它通過將冷藏液循環靠近服務器的行循環,從而從緊密包裝的GPU中取出熱量。
AWS的計算和機器學習服務dentDave Brown解釋說,標準冷卻解決方案不適合其需求。他說,這些選擇會浪費太多數據中心空間,並且使用水效率低下。儘管此類系統可能適用於小型提供商的一些機櫃,但他指出,他們缺乏支持AWS規模所需的液體冷卻能力。
AWS還剛剛推出了P6E實例,該實例利用了NVIDIA的GB200 NVL72,這是一個密集的超級計算平臺,其中包含一個架子中的Blackwell GPU 這些旨在應對巨大的AI模型和生成AI任務的計算密集型性質。
到目前爲止,只有Microsoft和Coreweave等公司才提供了下一級GPU集羣。現在,AWS客戶可以訪問雲中最新,最先進的GPU機器學習培訓培訓基礎設施,並由最新的,水冷的NVIDIA A100 Tensor Core GPU提供支持。
IRHX在安全的溫度下將這些集羣袋保持在不加熱的情況下提供最佳性能。通過將IRHX直接烘烤到其數據中心設計中,AWS可以避免等待整個結構進行液體冷卻或爲昂貴的結構付費。
布朗在宣佈發佈P6E時指出,通過將GB200 NVL72系統與亞馬遜的IRHX相結合,客戶可以按大規模利用無與倫比的計算能力。它還將使開發人員,研究人員和公司能夠比過去更快,更有效地培訓更大的AI模型。
在進行過程中,在內部進行冷卻技術的努力揭示了更多有關亞馬遜更廣泛的遊戲,以擁有更多的基礎架構。近年來,AWS花費了大量開發其芯片,存儲系統和網絡設備來爲其雲服務提供動力。
這些進步使亞馬遜能夠進一步減輕對第三方供應商的依賴,並在運營績效和成本之間取得平衡。
這種方法已經獲得了回報。在2025年第一季度,AWS自該部門創建以來的運營利潤率最高,現在是亞馬遜總體盈利能力的主要發動機。 IRHX發佈擴展了AWS在雲行業的創新領導力和基礎設施足跡。
其他技術巨人也在做同樣的事情。例如,微軟構建了自己的AI芯片和自定義冷卻系統(輔助機),以與它們一起使用。 Google和Meta還正在研究構建針對AI工作負載的硬件和系統的方法。
但是,亞馬遜具有至關重要的優勢 - 它在全球數據中心的龐大佔地面積以及多年來建立和部署自定義硬件的經驗。 IRHX可以通過簡化其AI-Ready基礎架構,使其更高效,可持續性和可擴展性增加。
2025年DeFi賺取被動收入的新方法。瞭解更多