英伟达官宣下一代最强AI芯片 GPU性能8年提高1053倍

时间:2024-09-20 编辑: 浏览:(246)

在当今计算、网络和图形技术的发展历史上,英伟达有许多独特之处。其中之一就是,它现在手头资金雄厚,而且凭借其架构、工程设计和供应链,在人工智能生成市场上占据了领先地位。因此,英伟达可以随心所欲地规划未来的发展路线图,只要有助于推动技术进步。

早在2000年代,英伟达就已经是一家非常成功的创新企业,实际上并不需要涉足数据中心计算领域。但是,高性能计算(HPC)研究人员将英伟达拉入了加速计算领域,然后人工智能研究人员利用GPU计算优势,创造了一个全新的市场,这个市场已经等待了四十年,等待着以合理的价格将大量计算与海量数据相碰撞,真正实现把类似“思维机器”的东西带进到日常生活中。

致敬Danny Hillis、Marvin Minsky和Sheryl Handler,他们在1980年代创立了Thinking Machines,试图为AI处理提供支持,而不是传统的HPC模拟和建模应用。

同样,Yann LeCun在AT&T贝尔实验室创造卷积神经网络时,既没有数据也没有计算能力来制造我们现在所知的人工智能。

当时,黄仁勋是LSI Logic公司的主管,该公司生产存储芯片,黄仁勋最终成为AMD公司的CPU设计师。20世纪90年代初,就在Thinking Machines正处于艰难时期(最终破产),黄仁勋与Chris Malachowsky和Curtis Priem在圣何塞东边的Denny's餐厅会面,并创立了Nvidia。

Nvidia从超级分频器领域看到了新兴的人工智能机遇,并开始构建系统软件和底层大规模并行硬件,以实现人工智能革命的梦想。

这一直是计算的终极状态,也一直是我们所迈向的奇点。

如果其他星球上存在生命,那么生命总会进化到拥有大规模杀伤性武器的地步,总会创造出人工智能。可能也是在同一时间。在那一刻之后,这个世界会如何处理这两种技术,才是决定其能否在大灭绝事件中幸存下来的关键。

这听起来不像是讨论芯片制造商路线图的正常开场白。但事实并非如此,这是因为我们生活在一个充满变革的时代。

在台湾台北举行的年度电脑展(Computex)上,Nvidia的联合创始人兼首席执行官黄仁勋在其主题演讲中,再次试图将生成式人工智能革命(他称之为“第二次工业革命”)置于其背景之下,并展示了AI的未来,尤其是英伟达硬件的未来。

由此,我们窥见了GPU和互联技术路线图。但是据我们所知,这并不是计划的一部分,黄仁勋和他的主题演讲通常都是最后一刻才真正开始。

01.革命不可避免

黄博士提醒我们注意:生成式人工智能的核心在于规模。同时也指出2022年底ChatGPT时刻的到来既有技术方面的原因,也有经济方面的原因。

要达到ChatGPT的突破性时刻,需要GPU性能的大幅增长,然后再加上大量的GPU。

Nvidia确实实现了性能,这对人工智能的训练和推理都很重要,而且重要的是,它还从根本上减少了生成作为大型语言模型响应一部分的标记所需的能量。我们来看一下:

在八年间,从“Pascal P100 GPU”到“Blackwell B100 GPU”,GPU的性能提高了1053倍。其中部分性能是通过降低浮点精度实现的,例如从Pascal P100、Volta V100和Ampere A100 GPU的FP16格式到Blackwell B100使用的FP4格式,降低了4倍。

由于在数据格式、软件处理和硬件方面运用了大量的数学魔法,如果不降低精度,性能提升将只有263倍,而降低精度不会对LLM性能造成实质性损害。要知道,在CPU市场上,每时钟核心性能提高10%至15%,核心数量增加25%至30%已属正常。如果升级周期为两年,那么在同样的八年时间里,CPU吞吐量将提高4至5倍。

如上图所示,单位功耗的降低是一个关键指标,因为如果无法为系统供电,就无法使用系统。而token的能耗成本必须降低,这意味着为LLM生成的每个token的能耗必须比性能提升的速度更快。

在黄仁勋的主题演讲中,为了给大家提供一些更深层次的背景信息,在Pascal P100 GPU上生成一个token所需的17000焦耳热量大约相当于两个灯泡运行两天,而平均每个字需要三个token。

因此,现在我们开始明白为什么八年前的LLM甚至不可能在一定规模上运行,使其在执行任务时表现出色了。下图是在1.8万亿个参数、8万亿个通证数据驱动模型的情况下,训练GPT-4 Mixture of Experts LLM所需的功率:

对于一个P100集群来说,超过1000千兆瓦时的电量实在是太大了。

黄仁勋解释道:有了Blackwell GPU,公司将能够在大约10天内通过大约1万个GPU来训练GPT-4 1.8T MoE模型。

如果人工智能研究人员和Nvidia没有转向更低精度,那么在这八年时间里,性能提升也不过是250倍。

降低能源成本是一回事,降低系统成本又是另一回事。在传统的摩尔定律末期,晶体管每隔18到24个月就会缩小一次,芯片变得越来越便宜、越来越小,这两种技巧都非常困难。

现在,计算复合体已经达到了微粒极限,每个晶体管都越来越昂贵,因此,由晶体管制成的设备本身也越来越昂贵。HBM内存是成本的重要组成部分,先进的封装也是如此。

黄仁勋本人今年早些时候在接受CNBC采访时就曾说过Blackwell的价格。在SXM系列GPU插座中(不包括PCI-Express版本的GPU),P100推出时的成本约为5000美元;V100约为1万美元;A100约为1.5万美元;H100约为2.5万至3万美元。B100的成本预计在3.5万美元到4万美元之间。

黄仁勋没有说明的是,运行GPT-4 1.8T MoE基准每一代需要多少GPU,以及这些GPU或运行所需的电费是多少。

下图这个电子表格显示,根据黄仁勋所说,大约需要1万个B100,才能在十天左右的时间内训练出GPT-4 1.8T MoE:

在这八年里,GPU的价格上涨了7.5倍,但性能却提高了1000多倍。因此,现在使用Blackwell系统,可以在十天左右的时间内实际训练出像GPT-4这样拥有1.8万亿个参数的大型模型,而在两年前,即使是在Hopper一代刚刚起步的时候,也很难在数月内训练出拥有数千亿个参数的模型。

现在,系统成本将与该系统两年的电费相当。GPU大约占人工智能训练系统成本的一半,因此购买一个1万个GPU的Blackwell系统大约需要8亿美元,而运行十天的电费大约需要54万美元。

如果购买更少的GPU,就可以减少每天、每周或每月的电费支出,但同时也会相应增加训练时间,使电费支出再次上升。

就是这样,即使Hopper H100 GPU平台是“史上最成功的数据中心处理器”,正如黄仁勋在Computex主题演讲中所说的那样,Nvidia仍需继续努力。

如果将Hopper/Blackwell的投资周期与六十年前IBM System/360的发布相比较,IBM在那次发布中下了至今仍是公司历史上最大的赌注。

1961年,当IBM开始其“下一代产品线”研发项目时,它是一家年收入22亿美元的公司,在整个20世纪60年代,它花费了50多亿美元。

Big Blue是华尔街第一家蓝筹股公司,正是因为它花费了两年的收入和二十年的利润来创造System/360。它的某些部分推出较晚,表现不佳,但它彻底改变了企业数据处理的本质。

20世纪60年代末,IBM认为自己可能会创造600亿美元的销售额,但他们创造了1390亿美元的销售额,利润约为520亿美元。

可以说,Nvidia为数据中心计算的第二阶段掀起了更大的浪潮。

02.抵制是徒劳的

无论是Nvidia还是其竞争对手或客户,都无法抵挡未来的引力,也无法抵挡生成式人工智能对利润和生产力的承诺。

因此,Nvidia必将加快步伐,推陈出新。凭借250亿美元的银行存款和今年预计超过1000亿美元的收入,或许还有500亿美元将进入银行,它有能力推陈出新,把我们所有人都拉进未来。

黄仁勋表示:“在这个令人难以置信的增长时期,我们要确保继续提高性能,继续降低成本,如训练成本、推理成本等,并继续扩展人工智能能力,让每家公司都能拥抱人工智能。我们把性能推得越高,成本下降得就越厉害。”

正如我们上面的表格所清楚显示的那样,事实的确如此。这就引出了最新的Nvidia平台路线图:

在Hopper这一代中,最初的H100于2022年推出,配备了六层HBM3内存堆栈,通过带有900 GB/s端口的NVSwitch连接,并配有400 Gb/s端口的Quantum X400(以前称为Quantum-2)InfiniBand交换机以及ConnectX-7网络接口卡。

2023年,H200升级到六层更高容量和带宽更高的HBM3E内存,从而提升了H200封装中底层H100 GPU的有效性能。BlueField 3网卡也问世了,它为网卡增加了Arm内核,使其可以进行辅助工作。

在2024年,Blackwell GPU当然已经推出了8堆HBM3e内存,并与配备1.8TB/sec端口的NVSwitch 5和800Gb/sec的ConnectX-8网卡,以及配备800GB/sec端口的Spectrum-X800和Quantum-X800交换机搭配使用。

现在我们可以看到,在2025年,B200(上图中称为Blackwell Ultra)将拥有8个堆栈的HBM3e内存,这些堆栈有12个芯片高。

据推测,B100中的堆栈有8层高,因此Blackwell Ultra的HBM内存容量至少增加了50%,根据所使用的DRAM容量,增幅可能更大,HBM3E显存的时钟速度也可能更高。

Nvidia对Blackwell系列的内存容量含糊其辞,但我们在3月份的Blackwell发布会上估计,B100将拥有192GB内存和8TB/秒的带宽。

对于未来的Blackwell Ultra,我们预计会有更快的内存出现,如果出现带宽为9.6TB/秒的288GB内存,我们也不会感到惊讶。

我们认为,Ultra变体在SM上的良品率有可能会有所提高,从而使其性能略高于非Ultra前代产品。这将取决于产量。

Nvidia还将在2025年推出弧度更高的Spectrum-X800以太网交换机,可能会在盒子里装上六个ASIC,以创建一个非阻塞架构,就像其他交换机常用的那样,将总带宽翻倍,从而将每个端口的带宽或交换机中端口的数量翻倍。

在2026年,我们看到了“Rubin R100 GPU”,在去年发布的Nvidia路线图中,它的前身是X100,正如我们当时所说,我们认为X是一个变量,而不是任何东西的简称。

事实证明确实如此,Rubin GPU将使用HBM4内存,并将有8个堆栈,每个堆栈可能有十几个DRAM高,而2027年的Rubin Ultra GPU将有十几个HBM4内存堆栈,也可能有更高的堆栈(虽然路线图没有这么说)。

我们直到2026年才会看到Nvidia推出新的Arm服务器CPU“Vera”,它是当前“Grace”CPU的继任者。与之配套的是NVSwitch 6芯片,具有3.6 TB/s的端口,以及带有1.6 Tb/s端口的ConnectX-9网络接口卡。

有趣的是,还有一款名为X1600 IB/Ethernet Switch的产品,这可能意味着Nvidia正在融合其InfiniBand和以太网ASIC,就像十年前Mellanox所做的那样。或者,这可能意味着Nvidia只是为了好玩而试图让我们产生怀疑。

2027年的路线图中还透露了一些其他信息,这可能意味着对网卡和交换机的全面超以太网联盟支持,甚至可能是用于将节点内和跨机架的GPU连接在一起的UALink交换机。

原文来源于:

https://www.nextplatform.com/2024/06/02/nvidia-unfolds-gpu-interconnect-roadmaps-out-to-2027/

中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。

最新 更多 >
  • 1 1800万美元用于美国主要城市的“无附加条件”保证收入支付

    西海岸的一项收入保障计划正准备发放数百万美元,以支持高危青年。 洛杉矶县的收入保障计划Breathe正在扩大,将向脱离寄养系统的人发放约1800万美元,不附加任何条件。 该计划正准备将参与者人数增加一倍。 8月6日星期二,洛杉矶县管理机构监事会通过了该计划的扩展,将为2000名18至21岁的寄养青年提供每月500美元或每季度1500美元的津贴,为期18个月 要符合资格,申请人必须是前洛杉矶县儿童

  • 2 TradFi巨头公布其比特币ETF头寸

    随着累计流入超过170亿美元,比特币ETF已被证明是一个有吸引力和有利可图的提议。但谁在买,谁不买? 在最近一轮的文件中,TradFi机构向全世界公布了他们持有的比特币ETF。 根据高盛向美国证券交易委员会(SEC)披露的季度信息,该公司表示已收购价值4.18亿美元的比特币ETF。 高盛提交的文件显示,贝莱德IBIT约有700万股,截至本季度末价值约2.38亿美元。 这家资产管理巨头还披露了分别价

  • 3 Altcoins将迎来重大突破-最新加密货币新闻

    著名加密货币分析师Michael van de Poppe最近通过断言许多山寨币将对比特币(BTC)大幅飙升来搅动加密货币社区,比特币是市场价值领先的加密货币。他在个人X账户上做出了这一大胆的预测,强调TOTAL3图表即将突破比特币。 内容隐藏1 TOTAL3图表表示什么?2为什么56000美元的水平对比特币至关重要?投资者的3个关键要点 TOTAL3图表显示了什么? TOTA

  • 4 Xaman Wallet与万事达卡Immersve合作推出自助保管Web3卡

    Xaman Wallet与全球web3发卡平台、万事达卡主要成员Immersve合作,推出自助保管web3卡。 Xaman Wallet,前身为Xumm Wallet,宣布与Immersve合作推出由万事达卡支持的自助保管web3卡。 Xaman Wallet在8月15日X上的一篇帖子中宣布了这一合作关系,引用了XRP社区的一条沉浸式推文。该披露突显了一项将为web3万事达卡体验提供动力的新功能。

  • 5 机构对比特币仍然非常感兴趣

    比特币继续吸引机构投资者。尽管价格调整,2024年第二季度机构兴趣大幅上升。 这些数字说明了很多:美国现货比特币ETF的采用率跃升了27%以上。 第二季度,K33 Research的数据显示,超过262家新公司加入了现货比特币ETF,截至6月底,持有现货ETF的专业公司总数达到1199家。 即使市场紧张,机构也没有退缩——他们正在加倍努力。 机构锻炼肌肉 机构投资者现在在比特币ETF的管理总资产

  • 6 WIF、PEPE近期价格暴跌、还会不会继续下跌?

    由于交易者不断在市场上抛售所持有的模因币,Dogwifhat 的价格在过去 24 小时内下跌2.47%,交易价格为 1.49 美元,随后在周线上下跌逾 20%,原因是交易者不断在市场上抛售所持有的模因币。Dogwifhat 价格接近关键支撑位Dogwifhat 的价格位于关键支撑位 1.3504 美元。如果在未来 24 小时内跌破这一主要价格点,则该 meme 币可能面临跌至 1.0357 美元的

  • 7 分析师Jamie Coutts表示,比特币指标此前曾出现过闪烁绿色的看涨反转

    一位密切关注的加密货币分析师表示,之前预测看涨反转的一个比特币(BTC)指标再次闪烁绿色。 Real Vision的首席加密货币分析师Jamie Coutts表示,比特币的哈希率下降正在放缓,这一信号通常先于加密货币之王的势头逆转。 然而,他指出,这一预测取决于BTC哈希率下降速度的稳定。 “观察到比特币的哈希率下降正在放缓,这通常是在5月减半后熊市交叉点触底和逆转之前。然而,这是基于下行趋势的稳

  • 8 卡尔达诺价格预测-ADA重新访问此级别后将…

    截至发稿时,卡尔达诺的价格徘徊在0.33美元左右,似乎只有16%的地址盈利 Cardano(ADA)的价格可能正处于十字路口,山寨币正在测试图表上的关键支撑位。在撰写本文时,卡尔达诺的交易价格为0.33美元,这一价格水平在历史上既是支撑又是阻力。 现在,尽管市场似乎正在复苏,但卡尔达诺的价格走势仍然疲软。事实上,山寨币已经在其发行时间范围内停留了一段时间,看涨者也无法获得足够的购买压力。 这种疲软

  • 9 Meta争议声称其58%的加密广告是骗局

    Meta正在挑战澳大利亚竞争和消费者委员会(ACCC)的说法,即脸书上的大多数加密货币广告都是欺骗性的。在2022年提起的一项诉讼中,ACCC声称,其在平台上审查的加密广告中有58%是欺诈性的。 Meta强烈反对这些说法。该公司辩称,ACCC在其报告中考虑的信息已经过时,并没有准确描述其平台的状态。 ACCC的指控源于一项调查,该调查声称,至少可以追溯到2018年1月,在脸书上发现了600个欺诈广

  • 10 美国证券交易委员会终止对比特币(BTC)Layer-2 Stacks开发商Hiro的调查

    美国证券交易委员会(SEC)正在放弃对流行的比特币(BTC)二层链Stacks(STX)背后的公司的调查。 根据美国证券交易委员会提交的一份新的1-U表格,证券监管机构已经调查了STX开发商Hiro,并决定不对这家加密公司采取任何进一步行动。 “SEC调查终止 2024年7月9日,证券交易委员会(“SEC”)的工作人员通知Hiro Systems PBC(“Hiro”),工作人员已完成对Stack