AI大模型疯长,存储扛住了吗?

时间:2024-09-27 编辑: 浏览:(447)

文章来源:科技云报道

图片来源:由无界AI生成

AI大模型正在倒逼数字基础设施产业加速升级。

过去一年半,AI大模型标志性的应用相继出现,从ChatGPT到Sora一次次刷新人们的认知。震撼的背后,是大模型参数指数级的增长。

这种数据暴涨的压力,快速传导到了大模型的底层基础设施。作为支撑大模型的底座“三大件”——算力、网络、存储,都在快速的迭代。

算力方面,英伟达用了两年的时间就将GPU从H100升级到了H200,让模型的训练性能提升了5倍。

网络方面,从之前的25G升级到现在的200G,网络带宽提升了6倍。随着RDMA大规模的应用,网络延迟也降低了60%。

存储方面,华为、阿里云、百度智能云、腾讯云等大厂,都相继推出了面向AI大模型的存储方案。

那么作为基础设施的三大件之一的存储,在AI大模型的场景下到底发生了哪些变化?又有哪些新的技术挑战?

 AI大模型带来的

 存储挑战

算力、算法、数据,在发展AI过程中的重要性早已为人所熟知,但是作为数据的承载,存储却往往被忽略。

在训练AI大模型的过程中,需要大量数据的交换,存储作为数据的基础硬件,并非仅仅只是简单地记录数据,而是深刻参与到了数据归集、流转、利用等大模型训练的全流程。

如果存储性能不强,那么可能需要耗费大量时间才能完成一次训练,这就会严重制约大模型的发展迭代。

事实上,不少企业在开发及实施大模型应用过程中,已经开始意识到存储系统所面临的巨大挑战。

从AI大模型的研发生产流程看,可分为数据采集、清洗、训练和应用四个阶段,各阶段都对存储提出了新的要求,比如:

在数据采集环节,由于原始训练数据规模海量,且来源多样,企业希望能够有一个大容量、低成本、高可靠的数据存储底座。

在数据清洗阶段,网络上收集的原始数据是不能直接用于AI模型训练的,需要将多格式、多协议的数据进行清洗、去重、过滤、加工,行业内称其为“数据预处理”。

与传统单模态小模型训练相比,多模态大模型所需的训练数据量是其1000倍以上,一个典型的百TB级大模型数据集,预处理时长超过10天,占比AI数据挖掘全流程的30%。

同时,数据预处理伴随高并发处理,对算力消耗巨大。这就要求存储能够提供多协议、高性能的支持,用标准文件的方式完成海量数据的清洗和转换,以缩短数据预处理的时长。

在模型训练环节,通常会出现训练集加载慢、易中断、数据恢复时间长等问题。

相较于传统学习模型,大模型训练参数、训练数据集指数级增加,如何实现海量小文件数据集快速加载,降低 GPU等待时间是关键。

目前,主流预训练模型已经有千亿级参数,而频繁的参数调优、网络不稳定、服务器故障等多种因素带来训练过程不稳定,易中断返工,需要Checkpoints机制来确保训练回退到还原点,而不是初始点。

当前,由于Checkpoints需要天级的恢复时长,导致大模型整体训练周期陡增,而面对单次超大的数据量和未来小时级的频度要求,需要认真考虑如何降低Checkpoints恢复时长。

因此,存储能否快速地读写checkpoint(检查点)文件,也成了能否高效利用算力资源、提高训练效率的关键。

在应用阶段,存储需要提供比较丰富的数据审核的能力,来满足鉴黄鉴暴安全合规的诉求,保证大模型生成的内容是合法、合规的方式去使用。

总的来说,AI大模型训练的效率要达到极致,减少不必要的浪费,必须在数据上下功夫。准确地说,必须要在数据存储技术上进行创新。

AI倒逼存储技术创新

根据投资机构ARK Invest预算,到2030年,产业有望训练出比GPT-3多57倍参数、多720倍Token的AI模型,成本将从今天的170亿美元降至60万美元。

随着计算价格降低,数据将成为大模型生产的主要限制因素。

面对数据桎梏问题,不少企业已经开始进行前瞻性布局。

比如百川智能、智谱、元象等大模型企业,都已采用腾讯云AIGC云存储解决方案来提升效率。

数据显示,腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

科大讯飞、中科院等大模型企业和机构,则采用了华为AI存储相关产品。

数据显示,华为OceanStor A310可实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理,简化数据归集流程,减少数据搬移,预处理效率提升30%。

目前,国内各大厂商也相继发布了面向AI大模型场景的存储方案。

2023年7月,华为发布两款面向AI大模型的存储产品——OceanStor A310深度学习数据湖存储和FusionCube A3000训/推超融合一体机。

2023年11月云栖大会上,阿里云推出一系列针对大模型场景的存储产品创新,用AI技术赋能AI业务,帮助用户更轻松地管理大规模多模态数据集,提高模型训练、推理的效率和准确性。

2023年12月,百度智能云发布了“百度沧海·存储”统一技术底座,同时面向数据湖存储和AI存储能力进行了全面增强。

2024年4月,腾讯云宣布云存储解决方案面向AIGC场景全面升级,针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。

综合各大厂商的存储技术创新,可以发现技术方向较为统一,都是基于AI大模型生产研发的全流程,对存储产品进行有针对性的性能优化。

以腾讯云为例,在数据采集与清洗环节,首先需要存储能够支持多协议、高性能、大带宽。

因此,腾讯云对象存储COS能够支持单集群管理百 EB 级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB级别的海量数据采集。

同时,数据清洗时,大数据引擎需要快速地读取并过滤出有效数据。腾讯云对象存储COS通过自研数据加速器GooseFS提升数据访问性能,实现了高达数TBps的读取带宽,支撑计算高速运行,大大提升数据清洗效率。

在模型训练环节,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚。

腾讯云自主研发并行文件存储CFS Turbo ,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。3TB checkpoint 写入时间从10分钟,缩短至10秒内,使大模型训练效率大幅提升。

大模型推理场景对数据安全与可追溯性提出更高要求。

腾讯云数据万象CI为此提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力,为数据生产从“用户输入——预处理——内容审核——版权保护——安全分发——信息检索”业务全流程提供有力支撑,优化AIGC内容生产与管理模式,顺应监管导向,拓宽存储边界。

同时,随着训练数据和推理数据的增长,需要提供低成本的存储能力,减少存储开销。腾讯云对象存储服务提供了高达12个9的数据持久性和99.995%的数据可用性,能够为业务提供持续可用的存储服务。

总的来说,随着AI大模型的推进,数据存储出现了新的趋势。市场渴望更高性能、大容量、低成本的存储产品,并加速大模型各个环节的融合和效率提升。

而各大厂商也在通过技术创新不断满足大模型各环节的需求,为企业实施大模型降低门槛。

在AI大模型的倒逼下,存储创新已在路上。

最新 更多 >
  • 1 狗狗币和比特币买哪个

    狗狗币和比特币买哪个更好随着加密货币的发展,狗狗币和比特币成为了投资者们关注的焦点。狗狗币是一种新兴的数字货币,而比特币则是目前市场上最著名的数字货币。那么,狗狗币和比特币买哪个更好呢?下面就让我们来分析一下。市值和知名度比特币是目前市值最高的加密货币,拥有巨大的市场份额和广泛的国际认可度。比特币的市值稳定,投资者对其的信任度更高。与之相比,狗狗币的市值较低,目前还没有得到广泛接受和认可。在市场竞

  • 2 kkg币是什么?kkg币最近行情如何?

    什么是KKG币?KKG币,全称为KuKuGaga币,是一种基于区块链技术的加密货币。与其他加密货币类似,KKG币也采用了去中心化的分布式账本技术,确保交易的安全性和透明度。KKG币的创始人是一位匿名人士,他们旨在为用户提供安全、便捷和快速的支付体验。KKG币的特点包括匿名性、无国界性和去中心化,使其在数字经济中有着广泛的应用前景。KKG币最近行情如何?要了解KKG币的最近行情,可以通过币界网APP

  • 3 莱特币和狗狗币买哪个

    莱特币和狗狗币,买哪个?当谈到加密货币投资时,莱特币和狗狗币是两个备受关注的数字货币。莱特币是比特币的分叉,而狗狗币则是一种基于互联网热门“狗狗”互动的虚拟货币。那么,究竟是莱特币还是狗狗币更值得投资呢?让我们来看看两者的差异和投资潜力。莱特币的优势和潜力莱特币于2011年由一位前谷歌工程师创建,旨在成为比特币的改进版。莱特币有以下几个优势:首先,莱特币处理交易的速度比比特币更快。比特币的每个区块

  • 4 gxm币是什么?gxm币最近行情如何?

    GXM币简介GXM币,全称为GameXMaster币,是一种基于区块链技术发行的加密数字货币。GXM币的发行是为了支持GXT(GameXMaster Token)生态系统的发展,该生态系统旨在为游戏玩家和游戏开发者提供更便捷、安全和创新的游戏生态环境。GXM币的特点GXM币具有以下几个显著的特点: 去中心化:GXM币是基于区块链技术发行的,没有中央机构控制和干预,具有去中心化的特点,确保交易的安

  • 5 狗狗币和柴犬币哪个好

    狗狗币 VS 柴犬币:哪个更好?加密货币市场近年来发展迅速,并涌现了许多新的数字货币。在这些新生的数字货币中,狗狗币和柴犬币无疑是最受关注和讨论的两个。狗狗币源自于一个网络迷因,而柴犬币则以日本柴犬为主题。那么,对于投资者来说,狗狗币和柴犬币哪个更好呢?让我们来详细比较一下。市值和知名度狗狗币是目前市值最高的数字货币之一,它在全球公众和媒体中备受关注。狗狗币的创始人是一个匿名人士,他们致力于推动狗

  • 6 fyz币是什么?fyz币最近行情如何?

    fyz币是什么?fyz币是一种加密货币,也被称为数字货币。它是基于区块链技术开发的,目的是提供用户之间的快速、安全、去中心化的交易方式。fyz币的设计初衷是为了解决传统金融体系中存在的问题,例如高手续费、慢速交易和第三方的信任问题。与传统货币不同,fyz币的发行和管理不依赖于任何政府或中央银行,而是由网络用户共同管理。这意味着没有中心化的机构可以干预交易过程,保证了用户的资产安全和交易的公正性。f

  • 7 gxs币是什么?gxs币最近行情如何?

    GXS币是什么?GXS币(GXS)是一种基于区块链技术的数字货币,全称为“公信宝币”。公信宝是一个去中心化的信用数据共享和应用平台,致力于通过区块链技术改善传统金融领域的信用体系。GXS币作为公信宝平台的内部通证,可以用于支付和奖励系统中的各种服务和产品。GXS币采用了DPoS(委任权益证明)共识算法,通过验证人和见证人的角色来维护整个网络的安全性和稳定性。持有GXS币的用户还可以参与社区治理和共

  • 8 狗狗币和屎币哪个值得投资

    狗狗币和屎币:两个极具争议的数字货币数字货币市场一直以来都备受关注,除了比特币和以太坊这些大名鼎鼎的币种外,狗狗币和屎币也渐渐进入了人们的视野。这两个币种都有着独特的特点和巨大的潜力,然而对于投资者来说,哪个更值得投资呢?下面我们将对狗狗币和屎币进行一些比较,来帮助您做出决策。狗狗币:从玩笑走向现实狗狗币最初是作为一种玩笑币种而诞生的,它的名字和标志都源于一个互联网迷因:狗狗表情包。然而,狗狗币的

  • 9 hlx币是什么?hlx币最近行情如何?

    HLX币是什么?HLX币(HLX)是一个加密数字货币,完全基于区块链技术的去中心化系统运行。它是HollaEx生态系统的一部分,该生态系统旨在为用户提供安全、快捷和低成本的加密货币交易服务。HLX使用了与比特币相似的工作量证明(PoW)机制,在其网络中进行挖矿,并使用分布式账本技术来确保交易的安全性和可追溯性。与其他加密货币一样,HLX币旨在成为一种替代法定货币的形式,为用户提供一种更为自主和去中

  • 10 dgw币是什么?dgw币最近行情如何?

    DGW币是什么?DGW币(DogeCoinWorld)是一种加密货币,于2021年2月上线交易所。与其他数字货币类似,DGW币基于区块链技术,具有加密、安全、去中心化的特点。DGW币最初是作为一种娱乐币闻名的,其灵感来自于狗狗币(Dogecoin)。DGW币在创造过程中也保留了狗狗币的一些特点,如独特的狗头Logo、众多爱狗人士的参与和广泛传播。与其它数字货币不同,DGW币拥有自己的社区和粉丝群体