一个大模型训练成本要上亿美元,为何开发AI如此烧钱?

时间:2024-09-25 编辑: 浏览:(687)

文章来源:腾讯科技

图片来源:由无界AI生成

AI成本上升主要源于两个关键因素:AI模型规模扩大导致开发成本攀升,需要建设更多数据中心支持更多AI服务。

据国外媒体报道,在生成式人工智能热潮持续近18个月后,一些科技巨头正在逐步证实,人工智能确实具备成为真正的收入驱动因素的潜力。然而,这一进程也伴随着巨大的资金投入。

微软和谷歌母公司Alphabet最新公布的季度财报均显示,由于企业客户在人工智能服务上的投入增加,其云计算业务实现了显著的收入增长。尽管Meta在将人工智能技术转化为收益方面稍显滞后,但它表示,其相关努力对提高用户参与度和广告定位有积极影响。

为了获取这些早期收益,这三家科技巨头已经投入了数十亿美元用于人工智能的研发,并计划继续加大投资力度。

微软在4月25日宣布,最近一个季度资本支出高达140亿美元,并预计这些成本还将“大幅增加”,部分原因即是对人工智能基础设施的投资。这一数字比去年同期增长了79%。

Alphabet表示,该公司上个季度的资本支出为120亿美元,同比增长91%,并预计今年剩余时间的支出将“达到或超过”这一水平,因为该公司正专注于人工智能带来的机会。

与此同时,Meta也提高了今年的投资预期,现在预计资本支出将在350亿至400亿美元之间。若以该区间的上限计算,将同比增长42%。Meta还特别指出,其在人工智能研究和产品开发方面进行了积极投资。

人工智能成本上升让许多投资者感到意外。尤其是Meta的股价,在支出预测增加和销售增长低于预期的双重打击下大幅下跌。但在科技行业内,人工智能成本上升的预期一直存在。这主要源于两个关键因素:人工智能模型规模的不断扩大,导致开发成本日益攀升;同时,全球对人工智能服务的需求不断增长,需要建设更多的数据中心来支持这一需求。

正在试验这些人工智能服务的企业可以选择支付定制费用给OpenAI或谷歌等公司。然而,一旦这些系统启动并运行,每次用户使用聊天机器人或要求人工智能服务分析销售数据时,都会增加额外的成本。但更为昂贵的工作是为这些人工智能系统建立坚实的基础设施。这些努力正是这些科技巨头当前和未来投资的重点。

大语言模型变得越来越大

如今,备受瞩目的人工智能产品,如OpenAI的ChatGPT,其核心驱动均源自大语言模型。这些系统通过摄入海量的数据,涵盖书籍、文章以及在线评论等,旨在为用户提供最精准的查询回应。许多业界领先的人工智能公司坚信,通往更高级别人工智能(甚至可能是在多个任务上超越人类的人工智能系统)的必经之路,就是不断扩大这些大语言模型的规模。

为此,需要持续获取更多的数据、更为强大的算力支持,以及对人工智能系统进行更长时间的训练。在4月初的一次播客采访中,OpenAI的竞争对手Anthropic的首席执行官达里奥·阿莫代伊(Dario Amodei)指出,当前市场上人工智能模型的培训成本已高达约1亿美元。

他进一步表示:“目前正在训练的模型,以及预计在今年晚些时候或明年年初不同时间推出的模型,其成本已接近10亿美元。而在我看来,到了2025年和2026年,这一成本将飙升至50亿或100亿美元。”

芯片和计算成本激增

图片来源:由无界AI生成

在开发人工智能技术的过程中,芯片成本占据了很大比重。这些芯片并非传统意义上让英特尔声名远扬的中央处理器(CPU),也非驱动数十亿智能手机的小型化移动芯片。为了满足大语言模型的训练需求,人工智能公司高度依赖图形处理单元(GPU),它们以惊人的速度处理着庞大的数据集。然而,这些芯片不仅面临供应短缺的困境,其价格更是高昂至极,最尖端的芯片主要由英伟达制造。

英伟达的H100图形芯片,作为训练人工智能模型的黄金标准,其预估售价高达3万美元,但市场上一些经销商的报价更是成倍增长。大型科技公司对这类芯片的需求巨大。此前,Meta的首席执行官马克·扎克伯格(Mark Zuckerberg)曾公开表示,该公司计划在年底前采购35万枚H100芯片,以支持其人工智能研究工作的推进。即便考虑到大宗购买的优惠,这也将是一笔庞大的开支,数额高达数十亿美元。

当然,企业并非只能通过购买实体芯片来完成这项工作,租用芯片同样是一种选择,但成本同样不菲。以亚马逊的云计算部门AWS为例,他们将以每小时约6美元的价格向客户出租由英特尔制造的大型处理器集群。相较之下,一组英伟达H100芯片的使用成本则接近每小时100美元。

上个月,英伟达推出了名为Blackwell的新处理器,其处理大语言模型的速度实现了质的飞跃,预计价格将与包括H100在内的Hopper系列相近。英伟达表示,训练一个拥有1.8万亿参数的人工智能模型需要大约2000个Blackwell GPU。据外媒报道,这与OpenAI GPT-4相差不大。相较之下,使用Hopper GPU完成同样的任务则需要8000个。然而,这种显著的效率提升可能很快被业界对构建更大规模人工智能模型的追求所抵消。

数据中心建设

图片来源:由无界AI生成

购买了这些芯片的公司,还需考虑如何妥善安置它们。为此,Meta、亚马逊、微软和谷歌等顶尖云计算公司以及其他计算能力租赁提供商正竞相建立新的服务器设施。这些建筑通常是根据特定需求定制的,内部整齐排列着硬盘、处理器、高效的冷却系统、大量的电气设备和备用发电机。

据研究机构Dell'Oro Group的估算,今年企业预计将在数据中心的建设和装备上投入高达2940亿美元,这一数字相较于2020年的1930亿美元有显著增长。这种迅猛的扩张在很大程度上得益于数字服务的广泛崛起,包括流媒体视频的流行、企业数据量的爆炸式增长以及社交媒体信息流的激增。然而,值得注意的是,越来越多的投资正被用于购买昂贵的英伟达芯片和其他支持人工智能繁荣所需的专业硬件。

交易和人才争夺战

尽管芯片和数据中心占据了人工智能技术研发成本的主要部分,但一些人工智能公司也投入巨额资金,从出版商那里获取数据许可。

OpenAI已经与几家欧洲出版商达成了协议,将他们的新闻内容纳入ChatGPT,并用于训练其人工智能模型。尽管这些交易的具体财务条款尚未公开,但之前已有媒体报道,OpenAI同意向德国出版商Axel Springer和美国主流网络媒体BI支付数千万欧元,以获取其新闻文章的使用权。这家初创公司还与《时代》、CNN和福克斯新闻就内容授权进行了谈判。

尽管OpenAI在获取许可协议方面表现得更为积极,但大型科技公司也在积极寻找获取语言数据的方法,以构建引人注目的人工智能工具。据报道,谷歌与Reddit达成了一项价值6000万美元的数据授权协议。而外媒消息称,Meta的员工也在探讨收购图书出版商Simon & Schuster的可能性。

同时,科技公司也陷入了激烈的人工智能人才争夺战。去年,流媒体巨头Netflix曾一度发布广告,招聘人工智能产品经理一职,年薪高达90万美元。

更便宜的替代方案

微软在推动大语言模型的热潮上走在了大多数公司的前列,但最近,它表示将尝试一种不同的策略。该公司展示了三种计算能力较低的小型人工智能模型。

微软强调,大语言模型“仍将是解决众多复杂任务的黄金标准”,例如在“高级推理、数据分析和上下文理解”等领域。然而,对于某些客户和应用场景来说,较小的模型可能已经足够满足需求。其他公司,如由两名前谷歌员工创立的初创企业Sakana AI,也专注于小型模型的研发。

“你并不总是需要一辆跑车,”Forrester Research专注于人工智能研究的高级分析师罗文·柯伦(Rowan Curran)指出,“有时,一辆小型货车或皮卡就足够了。这不会是一个被广泛使用的模型类别,适合所有人在所有情况下使用。”

然而,就当前而言,人工智能领域的传统观念仍倾向于规模越大越好,但这无疑将伴随着高昂的成本。

最新 更多 >
  • 1 联盟链测试版现已上线

    【新闻稿-瑞典斯德哥尔摩,2024年5月7日】 联盟之链今天正式推出测试版,以Alpha 1.0的精细游戏体验标志着其重要里程碑 联盟之链今天正式推出测试版。该游戏标志着增强和完善其游戏体验的一个重要里程碑。测试版的推出彻底改变了玩家在游戏中的互动方式。联盟之链的团队仔细审查了阿尔法测试人员的反馈,并实施了一系列战略升级,以改善游戏动态并增强用户体验。以下关键的游戏改进可以在其测试版中找到: 作战

  • 2 DigiCert在2024年RSA大会上荣获全球InfoSec奖

    犹他州莱希,2024年5月7日(环球新闻)-全球领先的数字信托提供商DigiCert今天宣布,其trust Lifecycle Manager解决方案已被授予下一代证书生命周期管理类别的全球InfoSec奖。该奖项由领先的信息安全杂志《网络防御杂志》(CDM)颁发,获奖者由CISSP、FMDHS和CEH认证的安全专业人员根据他们对公司和产品的独立审查进行投票选出。 在PKI生命周期管理日益复杂的情

  • 3 MultiBank.io推出游戏化任务中心奖励加密货币交易

    阿联酋迪拜,2024年5月7日,Chainware MultiBank.io是备受尊敬的MultiBank集团的一部分,也是一家受监管的加密货币交易所,随着其奖励任务中心的推出,它为加密货币交易世界的新来者迈出了一大步。新加入MultiBank.io的用户以及现有用户将通过在交易所的整个旅程中实现里程碑而获得奖励。 任务中心:完成任务并获得奖励 MultiBank.io的核心是全新的使命中心,旨

  • 4 尼日利亚对加密货币交易实施限制-COINTURK NEWS

    尼日利亚的金融部门最近变得相当活跃。该国的本币奈拉在加密货币的对等(P2P)交易平台上的使用面临一系列限制。这一决定是由联邦政府通过美国证券交易委员会(SEC)宣布的。内容尼日利亚此举的目的是什么?对加密货币行业增长的打击?

  • 5 比特币期权市场持续存在牛市偏见:Kaiko

    根据Kaiko的数据,尽管最近市场波动很大,但比特币期权的看涨倾向依然存在。 上周,比特币经历了波动,短暂跌破57000美元大关,随后在周末因对美联储利率的担忧缓解而出现反弹。 比特币期权市场的牛市转变 上周比特币价格的下跌对将于5月底到期的看跌期权来说是有利的。57000美元至60000美元范围内的看跌期权短暂进入货币市场,为持有者在宏观经济逆风中提供了盈利能力。 看跌期权授予持有人以预定价格出

  • 6 在对亚洲机构提振的预期中,比特币的抛售呼声上升

    在过去的一周里,比特币呈现出下跌趋势,截至4月27日,其价格稳定在每枚62950美元至63125美元左右。尽管出现了这种下跌,加密货币恐惧和贪婪指数仍然坚定地处于“贪婪”板块。根据谷歌趋势,人们对“比特币”一词的兴趣已经减弱,而市场情报公司Santiment报告称,比特币的销售信号有所上升。 比特币在58天内保持在6万美元以上,尽管利率下跌和空头信号 本周末,比特币(BTC)仍被限制在特定范围内。

  • 7 Aevo价格预测:Aevo跃升2%,这一绿色人工智能加密预售突破320万美元

    截至美国东部时间凌晨04:20,Aevo的价格在过去24小时内上涨了2%,交易价格为1.404美元,交易量上涨了38%。AEVO在Coingape上与Voxel、Pepe、BTC和RNDR以及SOL、DOGE、DOGE20和ONDO等其他产品一起呈趋势。

  • 8 Silent Protocol将推出“Ghost layer”:以太坊的首个模块化L1.5

    巴拿马城,巴拿马,2024年5月7日,Chainware 区块链隐私技术的前沿创新者Silent Protocol宣布发布Ghost Layer,这是一款为以太坊生态系统设计的尖端模块化1.5层。这一新解决方案旨在为公共区块链提供合规的隐私增强功能,适用于零售和机构应用程序。 Ghost Layer使用基于零知识(ZK)的系统及其专有的0VM技术。这些进步允许资产的私人存储,并实现价值在各种区块

  • 9 到2032年,行为生物识别市场将超过150.8亿美元的估值:Astute Analytica

    新德里,2024年5月7日(环球新闻)-预计到2032年,全球行为生物识别市场将达到150.8亿美元,高于2023年的25亿美元,2024-2032年预测期的复合年增长率为22.41%。 按部署划分的行为生物识别市场收入(百万美元) 按部署2020 2021 2022 2023内部部署979.26 1146.01 1346.86 1588.54基于云的526.62 630.78 758.64 9

  • 10 比特币挖矿收入创年度新低:比特币的安全面临风险吗?

    比特币(BTC)的采矿收入在减半事件后跌至新低,引发了人们对网络安全性和矿工盈利能力的担忧。比特币挖矿的日收入已从2024年初的平均约600万美元大幅下降至300万美元以下,这标志着比特币的日收入大幅下降。这一低迷发生在2024年4月20日比特币减半之后,比特币将区块奖励从6.25 BTC降至3.125 BTC,有效地将矿工的区块奖励收入减半。尽管由于推出了一种名为Runes的新代币标准,交易费用