NVIDIA的新布萊克韋爾芯片正在改變人工智能系統可以訓練的速度。
在最新的基準測試結果中,MLCommons(MLCommons)是一個非營利組織,該組織tracAI Chips的功能,NVIDIA SET RECORDS編程的Blackwell Architecture的功能。
當使用Meta的開源美洲駝(3.1 405B)型號(其最大,最複雜的AI型號之一)進行測試時,使用Blackwell Chips僅在27分鐘這是隻有2,496個Blackwell GPU來完成的,這是比Nvidia之前的料斗芯片所採取的數量級。
相比之下,以前的設計使用了三倍多的料斗GPU來提供同等的性能。在籌碼中,布萊克韋爾(Blackwell)是迅速的兩倍以上,這是收斂效率的巨大提高。這種績效提升可以轉化爲培訓萬億參數模型的組織的主要時間和成本節省。
這些結果被認爲是在這些極端尺度上訓練模型的第一個MLCommons基準,並提供了芯片如何處理最苛刻的AI工作負載的現實測量。
結果不僅是NVIDIA的勝利,而且還強調了Coreweave的工作,CoreWeave是一家雲基礎設施公司,與測試合作。在新聞發佈會上,Coreweave首席產品官Chetan Kapoor指出了一個越來越有意義的一般方向:遠離大型,均勻的GPU大塊。
公司現在沒有建立一個龐大的,整體的計算系統,而是在研究較小的相互聯繫的子集,這些子集可以更有效地管理大規模的模型培訓,並且可以更好地縮放。
卡普爾說,通過這樣的技術,開發人員可以繼續擴大規模或減少具有數萬億個參數的極大模型所需的時間。
由於AI模型的大小和複雜性僅充氣,因此也需要移至硬件模塊化部署。
儘管最近的焦點已轉移到AI推理,其中諸如ChatGpt1之類的模型實時回答用戶問題,但培訓仍然是AI開發的主力.
培訓部分使這些模型具有智能,使他們能夠理解語言,解決我們一些最具挑戰性的問題,甚至產生類似人類的散文。該計算高度要求,需要數千個高性能的芯片才能長時間運行,通常是幾天(如果不是數週或幾個月)。
NVIDIA的Blackwell建築發生了變化。通過從根本上切割芯片和訓練Gargantuan AI型號所需的時間,Blackwell芯片使Nvidia在速度和效率統治棲息的市場中可以更好地提供更好的幫助。
具有數萬億個參數的元模型,例如Meta的Llama 3.1 405B,以前必須在巨大的GPU上運行,並且是一個昂貴的能量耗盡的過程。
在對許多行業中對更大,更強大的AI模型的需求(從醫療保健和金融到教育和自動駕駛汽車)的越來越大,更強大的AI模型的需求激烈,這種表現的增長是一項巨大的領域。
它還向Nvidia的競爭對手發送了明確的信息。現在,正在從事AI特定芯片的AMD和Intel等芯片公司承受着更大的壓力以保持類似的速度。
AMD提交了MLCommons基準測試,但沒有顯示出與Llamas 3.1 405B一樣大的模型的結果。 NVIDIA是唯一在基準高端測試的人,證明這是出色的硬件,願意承擔最艱鉅的挑戰。
加密大都會學院:想在2025年養活您的錢嗎?在即將到來的WebClass中DeFi進行操作保存您的位置