NVIDIA的新布莱克韦尔芯片正在改变人工智能系统可以训练的速度。
在最新的基准测试结果中,MLCommons(MLCommons)是一个非营利组织,该组织tracAI Chips的功能,NVIDIA SET RECORDS编程的Blackwell Architecture的功能。
当使用Meta的开源美洲驼(3.1 405B)型号(其最大,最复杂的AI型号之一)进行测试时,使用Blackwell Chips仅在27分钟这是只有2,496个Blackwell GPU来完成的,这是比Nvidia之前的料斗芯片所采取的数量级。
相比之下,以前的设计使用了三倍多的料斗GPU来提供同等的性能。在筹码中,布莱克韦尔(Blackwell)是迅速的两倍以上,这是收敛效率的巨大提高。这种绩效提升可以转化为培训万亿参数模型的组织的主要时间和成本节省。
这些结果被认为是在这些极端尺度上训练模型的第一个MLCommons基准,并提供了芯片如何处理最苛刻的AI工作负载的现实测量。
结果不仅是NVIDIA的胜利,而且还强调了Coreweave的工作,CoreWeave是一家云基础设施公司,与测试合作。在新闻发布会上,Coreweave首席产品官Chetan Kapoor指出了一个越来越有意义的一般方向:远离大型,均匀的GPU大块。
公司现在没有建立一个庞大的,整体的计算系统,而是在研究较小的相互联系的子集,这些子集可以更有效地管理大规模的模型培训,并且可以更好地缩放。
卡普尔说,通过这样的技术,开发人员可以继续扩大规模或减少具有数万亿个参数的极大模型所需的时间。
由于AI模型的大小和复杂性仅充气,因此也需要移至硬件模块化部署。
尽管最近的焦点已转移到AI推理,其中诸如ChatGpt1之类的模型实时回答用户问题,但培训仍然是AI开发的主力.
培训部分使这些模型具有智能,使他们能够理解语言,解决我们一些最具挑战性的问题,甚至产生类似人类的散文。该计算高度要求,需要数千个高性能的芯片才能长时间运行,通常是几天(如果不是数周或几个月)。
NVIDIA的Blackwell建筑发生了变化。通过从根本上切割芯片和训练Gargantuan AI型号所需的时间,Blackwell芯片使Nvidia在速度和效率统治栖息的市场中可以更好地提供更好的帮助。
具有数万亿个参数的元模型,例如Meta的Llama 3.1 405B,以前必须在巨大的GPU上运行,并且是一个昂贵的能量耗尽的过程。
在对许多行业中对更大,更强大的AI模型的需求(从医疗保健和金融到教育和自动驾驶汽车)的越来越大,更强大的AI模型的需求激烈,这种表现的增长是一项巨大的领域。
它还向Nvidia的竞争对手发送了明确的信息。现在,正在从事AI特定芯片的AMD和Intel等芯片公司承受着更大的压力以保持类似的速度。
AMD提交了MLCommons基准测试,但没有显示出与Llamas 3.1 405B一样大的模型的结果。 NVIDIA是唯一在基准高端测试的人,证明这是出色的硬件,愿意承担最艰巨的挑战。
加密大都会学院:想在2025年养活您的钱吗?在即将到来的WebClass中DeFi进行操作保存您的位置