英伟达官宣下一代最强AI芯片 GPU性能8年提高1053倍

时间:2024-09-23 编辑: 浏览:(893)

在当今计算、网络和图形技术的发展历史上,英伟达有许多独特之处。其中之一就是,它现在手头资金雄厚,而且凭借其架构、工程设计和供应链,在人工智能生成市场上占据了领先地位。因此,英伟达可以随心所欲地规划未来的发展路线图,只要有助于推动技术进步。

早在2000年代,英伟达就已经是一家非常成功的创新企业,实际上并不需要涉足数据中心计算领域。但是,高性能计算(HPC)研究人员将英伟达拉入了加速计算领域,然后人工智能研究人员利用GPU计算优势,创造了一个全新的市场,这个市场已经等待了四十年,等待着以合理的价格将大量计算与海量数据相碰撞,真正实现把类似“思维机器”的东西带进到日常生活中。

致敬Danny Hillis、Marvin Minsky和Sheryl Handler,他们在1980年代创立了Thinking Machines,试图为AI处理提供支持,而不是传统的HPC模拟和建模应用。

同样,Yann LeCun在AT&T贝尔实验室创造卷积神经网络时,既没有数据也没有计算能力来制造我们现在所知的人工智能。

当时,黄仁勋是LSI Logic公司的主管,该公司生产存储芯片,黄仁勋最终成为AMD公司的CPU设计师。20世纪90年代初,就在Thinking Machines正处于艰难时期(最终破产),黄仁勋与Chris Malachowsky和Curtis Priem在圣何塞东边的Denny's餐厅会面,并创立了Nvidia。

Nvidia从超级分频器领域看到了新兴的人工智能机遇,并开始构建系统软件和底层大规模并行硬件,以实现人工智能革命的梦想。

这一直是计算的终极状态,也一直是我们所迈向的奇点。

如果其他星球上存在生命,那么生命总会进化到拥有大规模杀伤性武器的地步,总会创造出人工智能。可能也是在同一时间。在那一刻之后,这个世界会如何处理这两种技术,才是决定其能否在大灭绝事件中幸存下来的关键。

这听起来不像是讨论芯片制造商路线图的正常开场白。但事实并非如此,这是因为我们生活在一个充满变革的时代。

在台湾台北举行的年度电脑展(Computex)上,Nvidia的联合创始人兼首席执行官黄仁勋在其主题演讲中,再次试图将生成式人工智能革命(他称之为“第二次工业革命”)置于其背景之下,并展示了AI的未来,尤其是英伟达硬件的未来。

由此,我们窥见了GPU和互联技术路线图。但是据我们所知,这并不是计划的一部分,黄仁勋和他的主题演讲通常都是最后一刻才真正开始。

01.革命不可避免

黄博士提醒我们注意:生成式人工智能的核心在于规模。同时也指出2022年底ChatGPT时刻的到来既有技术方面的原因,也有经济方面的原因。

要达到ChatGPT的突破性时刻,需要GPU性能的大幅增长,然后再加上大量的GPU。

Nvidia确实实现了性能,这对人工智能的训练和推理都很重要,而且重要的是,它还从根本上减少了生成作为大型语言模型响应一部分的标记所需的能量。我们来看一下:

在八年间,从“Pascal P100 GPU”到“Blackwell B100 GPU”,GPU的性能提高了1053倍。其中部分性能是通过降低浮点精度实现的,例如从Pascal P100、Volta V100和Ampere A100 GPU的FP16格式到Blackwell B100使用的FP4格式,降低了4倍。

由于在数据格式、软件处理和硬件方面运用了大量的数学魔法,如果不降低精度,性能提升将只有263倍,而降低精度不会对LLM性能造成实质性损害。要知道,在CPU市场上,每时钟核心性能提高10%至15%,核心数量增加25%至30%已属正常。如果升级周期为两年,那么在同样的八年时间里,CPU吞吐量将提高4至5倍。

如上图所示,单位功耗的降低是一个关键指标,因为如果无法为系统供电,就无法使用系统。而token的能耗成本必须降低,这意味着为LLM生成的每个token的能耗必须比性能提升的速度更快。

在黄仁勋的主题演讲中,为了给大家提供一些更深层次的背景信息,在Pascal P100 GPU上生成一个token所需的17000焦耳热量大约相当于两个灯泡运行两天,而平均每个字需要三个token。

因此,现在我们开始明白为什么八年前的LLM甚至不可能在一定规模上运行,使其在执行任务时表现出色了。下图是在1.8万亿个参数、8万亿个通证数据驱动模型的情况下,训练GPT-4 Mixture of Experts LLM所需的功率:

对于一个P100集群来说,超过1000千兆瓦时的电量实在是太大了。

黄仁勋解释道:有了Blackwell GPU,公司将能够在大约10天内通过大约1万个GPU来训练GPT-4 1.8T MoE模型。

如果人工智能研究人员和Nvidia没有转向更低精度,那么在这八年时间里,性能提升也不过是250倍。

降低能源成本是一回事,降低系统成本又是另一回事。在传统的摩尔定律末期,晶体管每隔18到24个月就会缩小一次,芯片变得越来越便宜、越来越小,这两种技巧都非常困难。

现在,计算复合体已经达到了微粒极限,每个晶体管都越来越昂贵,因此,由晶体管制成的设备本身也越来越昂贵。HBM内存是成本的重要组成部分,先进的封装也是如此。

黄仁勋本人今年早些时候在接受CNBC采访时就曾说过Blackwell的价格。在SXM系列GPU插座中(不包括PCI-Express版本的GPU),P100推出时的成本约为5000美元;V100约为1万美元;A100约为1.5万美元;H100约为2.5万至3万美元。B100的成本预计在3.5万美元到4万美元之间。

黄仁勋没有说明的是,运行GPT-4 1.8T MoE基准每一代需要多少GPU,以及这些GPU或运行所需的电费是多少。

下图这个电子表格显示,根据黄仁勋所说,大约需要1万个B100,才能在十天左右的时间内训练出GPT-4 1.8T MoE:

在这八年里,GPU的价格上涨了7.5倍,但性能却提高了1000多倍。因此,现在使用Blackwell系统,可以在十天左右的时间内实际训练出像GPT-4这样拥有1.8万亿个参数的大型模型,而在两年前,即使是在Hopper一代刚刚起步的时候,也很难在数月内训练出拥有数千亿个参数的模型。

现在,系统成本将与该系统两年的电费相当。GPU大约占人工智能训练系统成本的一半,因此购买一个1万个GPU的Blackwell系统大约需要8亿美元,而运行十天的电费大约需要54万美元。

如果购买更少的GPU,就可以减少每天、每周或每月的电费支出,但同时也会相应增加训练时间,使电费支出再次上升。

就是这样,即使Hopper H100 GPU平台是“史上最成功的数据中心处理器”,正如黄仁勋在Computex主题演讲中所说的那样,Nvidia仍需继续努力。

如果将Hopper/Blackwell的投资周期与六十年前IBM System/360的发布相比较,IBM在那次发布中下了至今仍是公司历史上最大的赌注。

1961年,当IBM开始其“下一代产品线”研发项目时,它是一家年收入22亿美元的公司,在整个20世纪60年代,它花费了50多亿美元。

Big Blue是华尔街第一家蓝筹股公司,正是因为它花费了两年的收入和二十年的利润来创造System/360。它的某些部分推出较晚,表现不佳,但它彻底改变了企业数据处理的本质。

20世纪60年代末,IBM认为自己可能会创造600亿美元的销售额,但他们创造了1390亿美元的销售额,利润约为520亿美元。

可以说,Nvidia为数据中心计算的第二阶段掀起了更大的浪潮。

02.抵制是徒劳的

无论是Nvidia还是其竞争对手或客户,都无法抵挡未来的引力,也无法抵挡生成式人工智能对利润和生产力的承诺。

因此,Nvidia必将加快步伐,推陈出新。凭借250亿美元的银行存款和今年预计超过1000亿美元的收入,或许还有500亿美元将进入银行,它有能力推陈出新,把我们所有人都拉进未来。

黄仁勋表示:“在这个令人难以置信的增长时期,我们要确保继续提高性能,继续降低成本,如训练成本、推理成本等,并继续扩展人工智能能力,让每家公司都能拥抱人工智能。我们把性能推得越高,成本下降得就越厉害。”

正如我们上面的表格所清楚显示的那样,事实的确如此。这就引出了最新的Nvidia平台路线图:

在Hopper这一代中,最初的H100于2022年推出,配备了六层HBM3内存堆栈,通过带有900 GB/s端口的NVSwitch连接,并配有400 Gb/s端口的Quantum X400(以前称为Quantum-2)InfiniBand交换机以及ConnectX-7网络接口卡。

2023年,H200升级到六层更高容量和带宽更高的HBM3E内存,从而提升了H200封装中底层H100 GPU的有效性能。BlueField 3网卡也问世了,它为网卡增加了Arm内核,使其可以进行辅助工作。

在2024年,Blackwell GPU当然已经推出了8堆HBM3e内存,并与配备1.8TB/sec端口的NVSwitch 5和800Gb/sec的ConnectX-8网卡,以及配备800GB/sec端口的Spectrum-X800和Quantum-X800交换机搭配使用。

现在我们可以看到,在2025年,B200(上图中称为Blackwell Ultra)将拥有8个堆栈的HBM3e内存,这些堆栈有12个芯片高。

据推测,B100中的堆栈有8层高,因此Blackwell Ultra的HBM内存容量至少增加了50%,根据所使用的DRAM容量,增幅可能更大,HBM3E显存的时钟速度也可能更高。

Nvidia对Blackwell系列的内存容量含糊其辞,但我们在3月份的Blackwell发布会上估计,B100将拥有192GB内存和8TB/秒的带宽。

对于未来的Blackwell Ultra,我们预计会有更快的内存出现,如果出现带宽为9.6TB/秒的288GB内存,我们也不会感到惊讶。

我们认为,Ultra变体在SM上的良品率有可能会有所提高,从而使其性能略高于非Ultra前代产品。这将取决于产量。

Nvidia还将在2025年推出弧度更高的Spectrum-X800以太网交换机,可能会在盒子里装上六个ASIC,以创建一个非阻塞架构,就像其他交换机常用的那样,将总带宽翻倍,从而将每个端口的带宽或交换机中端口的数量翻倍。

在2026年,我们看到了“Rubin R100 GPU”,在去年发布的Nvidia路线图中,它的前身是X100,正如我们当时所说,我们认为X是一个变量,而不是任何东西的简称。

事实证明确实如此,Rubin GPU将使用HBM4内存,并将有8个堆栈,每个堆栈可能有十几个DRAM高,而2027年的Rubin Ultra GPU将有十几个HBM4内存堆栈,也可能有更高的堆栈(虽然路线图没有这么说)。

我们直到2026年才会看到Nvidia推出新的Arm服务器CPU“Vera”,它是当前“Grace”CPU的继任者。与之配套的是NVSwitch 6芯片,具有3.6 TB/s的端口,以及带有1.6 Tb/s端口的ConnectX-9网络接口卡。

有趣的是,还有一款名为X1600 IB/Ethernet Switch的产品,这可能意味着Nvidia正在融合其InfiniBand和以太网ASIC,就像十年前Mellanox所做的那样。或者,这可能意味着Nvidia只是为了好玩而试图让我们产生怀疑。

2027年的路线图中还透露了一些其他信息,这可能意味着对网卡和交换机的全面超以太网联盟支持,甚至可能是用于将节点内和跨机架的GPU连接在一起的UALink交换机。

原文来源于:

https://www.nextplatform.com/2024/06/02/nvidia-unfolds-gpu-interconnect-roadmaps-out-to-2027/

中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。

最新 更多 >
  • 1 2024年顶级加密货币预售:MoonBag的股权绿洲——投资者涌向可扩展性和高投资回报率的绿洲,放弃Hedera和互联网计算机的荒芜景观

    在巨大而不可预测的加密货币荒野中,有些事情出乎意料。投资者蜂拥而至,就像一群逃跑的鸟,都在寻找更好的机会。投资者正在逃离干涸的加密货币,寻找郁郁葱葱的天堂,这在加密货币世界引起了巨大的觉醒。 MoonBag加密货币是雄心勃勃的个人巨大财富和可扩展性的象征。投资者被MoonBag吸引,就像蜜蜂来到蜂巢一样,被其巨大投资回报率和赌注奖励的承诺所吸引,希望在加密货币领域找到下一个绝佳机会。 Hede

  • 2 Behind the Code:Polkadot 如何实现全球协作与去中心化治理?

    来源:OneBlock Community2024 年 6 月 16 日,《Behind the Code: Web3 Thinkers》第二季第二集上线。本集中,ChaosDAO 联合创始人兼 Novasama Technologies 首席财务官 Leemo 深入探讨了 Polkadot 生态系统中的全球协作力量,以及这种协作如何推动去中心化治理的创新与发展。Leemo 分享了他在 Polka

  • 3 根据Glassnode的数据,Coinbase持有约55057697000美元的比特币(BTC)

    根据区块链分析平台Glassnode的数据,Coinbase目前持有流通中约4%的比特币。 根据Glassnode的数据,这家美国顶级加密货币交易所托管着大约839000比特币。 “Coinbase作为一个实体,通过其托管服务持有交易所总余额以及美国现货交易所交易基金(ETF)余额的很大一部分。 Coinbase交易所和Coinbase托管实体目前分别持有约27万和569000比特币。” 来源:

  • 4 索拉纳ETF计划成为北美第一

    随着比特币现货交易所交易基金(ETF)在美国站稳脚跟,以及上月末初步批准后即将推出的以太坊现货ETF,加拿大Solana ETF的新提案于周四出台。 加拿大投资基金经理3iQ宣布,已申请收购索拉纳基金(QSOL),该公司表示,如果获得批准,“这将是索拉纳在北美上市的第一只交易所交易产品。” 截至本文撰写之时,Solana(SOL)的市值为610亿美元,是仅次于比特币(BTC)、以太坊(ETH)、美

  • 5 XRP对Ripple SEC发展的公开兴趣激增

    在昨天回升至0.50美元以上后,XRP注意到与过去12小时左右的水平相比略有下降。 然而,短暂的上涨趋势抹去了其每周的损失,使XRP成为同期唯一一种绿色的顶级加密货币,略有上涨。 投资者涌向XRP 与价格行动一致,XRP的公开兴趣(OI)激增,因为交易员继续密切关注Ripple与美国证券交易委员会(SEC)之间正在进行的法律斗争。 CryptoQuant的最新分析显示,OI的激增表明,投资者越来越

  • 6 Covalent(CQT)宣布新一轮生态空投计划 Taiko及zkSync首批入选

    Covalent Network(CQT)宣布启动了新的 Covalent Network(CQT)生态系统空投计划,并作为“新曙光”计划的一部分。该计划旨在升级网络,并进一步去中心化其基础设施,以实现长期数据可用性。该计划侧重于改善基础设施、优化质押机制,并启动激励活动以推动参与和增长。同时,它还旨在奖励 CQT 代币质押者,以感谢他们对 Covalent Network(CQT)生态系统的坚定

  • 7 币安将对加拿大监管机构 440 万美元罚款提出上诉

    作者:Turner Wright,Cointelegraph;编译:白水,加密货币交易所币安已就加拿大金融交易和报告分析中心 (FINTRAC) 于 5 月处以的 440 万美元罚款提起上诉。币安控股有限公司于 6 月 5 日向加拿大联邦法院系统提交了一份针对 FINTRAC 主任的法定上诉通知,指控其不遵守反洗钱 (AML) 和打击资助恐怖主义 (CFT) 法规。监管机构于 5 月 9 日宣布,

  • 8 早报 | 以太坊EIP-7702提案面临挑战 3iQ提出北美首个Solana ETF申请

    头条▌以太坊EIP-7702提案面临挑战以太坊联合创始人Vitalik Buterin提出的EIP-7702提案被纳入下次升级“Pectra”,但开发者尚未敲定细节。该提案允许外部拥有账户(EOA)在单笔交易中临时充当智能合约,增强灵活性和安全性。在最近的核心开发者会议上,讨论了EIP-7702的集成挑战和潜在风险。开发者们一致同意在7月4日的下一次会议前解决这些问题,以确保其及时实施到开发测试网

  • 9 第二章大改动收恶评,Pixels还值得参与吗?

    作者:Asher,Odaily 星球日报 千呼万唤始出来,推迟多次 Pixels 第二章在今日上午正式上线。作为 Ron 生态日活用户最多的链游,当第二章上线的消息一出,海内外社区瞬间热闹起来,探讨最新的打金策略,赢在起跑线。但随着用户的不断体验,社区氛围充满了怨气: 「设计有点非人类,任务板在家,但买东西要跑出来去商店买,溜人玩呢?」 「本来材料分的级别多就占背包格子,但每个格子竟然改成了

  • 10 Bankless:您应该了解的 8 个 NFT 原语

    作者:William M. Peaster,Bankless;编译:邓通,如果 DeFi 有“金钱乐高”,那么 NFT 就有“文化乐高”。换一种说法?NFT 原语。在加密货币中,原语是可用于创建更复杂系统或应用程序的基本构建块。NFT 原语很重要,因为它们为围绕 NFT 的新创新和新用例铺平了道路,使开发人员能够构建更复杂、更通用的体验。为了让您更好地了解这里的可编程可能性,让我们来看看当今一些最