算力不足,小模型成AI模型发展下个方向?

时间:2024-09-29 编辑: 浏览:(210)

作者:一号

编辑:美美

大模型不是AI的唯一出路,把模型做小也是本事。

这段时间,AI模型界是真的热闹,新的模型不断涌现,不管是开源还是闭源,都在刷新成绩。就在前几天,Meta就上演了一出“重夺开源铁王座”的好戏。发布了Llama 3 8B和70B两个版本,在多项指标上都超越了此前开源的Grok-1和DBRX,成为了新的开源大模型王者。

并且Meta还透露,之后还将推出400B版本的Llama 3,它的测试成绩可是在很多方面上都追上了OpenAI闭源的GPT-4,让很多人都直呼,开源版的GPT-4就要来了。尽管在参数量上来看,相比Llama 2,Llama 3并没有特别大的提升,但是在某些表现上,Llama 3最小的8B版本都比Llama 2 70B要好。可见,模型性能的提升,并非只有堆参数这一种做法。

Llama 3重回开源之王

当地时间4月18日,“真·OpenAI”——Meta跑出了目前最强的开源大模型Llama 3。本次Meta共发布了两款开源的Llama 3 8B和Llama 3 70B模型。根据Meta的说法,这两个版本的Llama 3是目前同体量下,性能最好的开源模型。并且在某些数据集上,Llama 3 8B的性能比Llama 2 70B还要强,要知道,这两者的参数可是相差了一个数量级。

能够做到这点,可能是因为Llama 3的训练效率要高3倍,它基于超过15T token训练,这比Llama 2数据集的7倍还多。在MMLU、ARC、DROP等基准测试中,Llama 3 8B在九项测试中领先于同行,Llama 3 70B也同样击败了Gemini 1.5 Pro和Claude 3 Sonnet。

尽管在参数量上并没有特别大的提升,但毫无疑问,Llama 3的性能已经得到了很大的进步,可以说是用相近的参数量获得了更好的性能,这可能是在算力资源短期内无法满足更大规模运算的情况下所作出的选择,但这体现了AI模型的研发并非只有堆砌参数这一条“大力出奇迹”的道路。

把大模型做小正成业内共识

实际上,在Llama 3之间的两位开源王者,Grok-1和DBRX也致力于把模型做小。和以往的大模型,使用一个模型解决一切问题的方式不同,Grok-1和DBRX都采用了MoE架构(专家模型架构),在面对不同问题的时候,调用不同的小模型来解决,实现在节省算力的情况下,保证回答的质量。

而微软也在Llama 3发布后没几天,就出手截胡,展示了Phi-3系列小模型的技术报告。在这份报告中,仅3.8B参数的Phi-3-mini在多项基准测试中都超过了Llama 3 8B,并且为了方便开源社区使用,还特意把它设计成了与Llama系列兼容的结构。更夸张的是,微软的这个模型,在手机上也能直接跑,经4bit量化后的phi-3-mini在iPhone 14 pro和iPhone 15使用的苹果A16芯片上能够跑到每秒12 token,这也就意味着,现在手机上能本地运行的最佳开源模型,已经做到了ChatGPT水平。

而除了mini杯外,微软也一并发布了小杯和中杯,7B参数的Phi-3-small和14B参数的Phi-3-medium。在技术报告中,微软也说了,去年研究团队就发现,单纯堆砌参数量并非提升模型性能的唯一路径,反而是精心设计训练的数据,尤其是利用大模型本身去生成合成数据,并配合严格过滤的高质量数据,能够让中小模型的能力大幅跃升,所以他们也说,Textbooks are all you need,教科书级别的高质量数据才是重要的。

AI模型发展正着力于摆脱限制

自英伟达乘着AI的东风,成为行业内说一不二,当之无愧的“卖铲子的人”,各家AI公司都将英伟达的GPU视为“硬通货”,以致于谁囤有更多的英伟达的GPU,谁的AI实力就强。但英伟达的GPU的交付并未能始终跟上市场的需求。

因此,很多AI公司开始另谋出路,要么找其他的GPU生产商,要么决定自己研发AI芯片。即使你囤够了英伟达的GPU,也还有其他限制,OpenAI在前段时间就被爆出,因为训练GPT-6,差点把微软的电网搞瘫痪。马斯克也曾说过,当前限制AI发展的主要因素是算力资源,但在未来,电力会成为限制AI发展的另一阻碍。

显然,如果持续“大力出奇迹”,通过堆砌参数量来实现AI性能的提升,那么以上这些问题迟早会遇到,但是如果把大模型做小,使用较小的参数量,实现同样或者更好的性能,那么将可以显著减少对算力资源的需求,进而减少对电力资源的消耗,从而让AI在有限资源的情况下,得到更好的发展。

因此,接下来,谁能在将模型做小的同时,还能实现性能的增长,也是实力的体现。

最新 更多 >
  • 1 AVAT币哪个市场有

    AVAT币是一种基于区块链技术的数字货币,它通过去中心化的方式实现了快速、安全、低成本的交易。与传统的中心化银行系统相比,AVAT币具有更高的可信度和透明度,同时也能减少中间环节所带来的费用和风险。下面,我们将来介绍三个知名的AVAT币交易所,它们分别是欧易交易所、币安交易所和火必交易所。欧易交易所是一家历史悠久的数字货币交易平台,成立于2013年。作为亚洲最早的数字货币交易所之一,欧易交易所在安

  • 2 azzr币怎么买卖

    AZZR币是一种新型的加密数字货币,它以其高度安全和快速的交易特性在数字货币市场上崭露头角。AZZR币的发展旨在为用户提供更便捷、透明和高效的交易方式,同时也致力于推动数字货币市场的发展和创新。在数字货币市场中,有许多知名的交易所供用户进行AZZR币的买卖。以下将介绍三个著名的交易所,它们分别是欧易交易所、币安交易所和火必交易所。欧易交易所(OEX)是一个全球知名的数字资产交易平台,拥有丰富的交易

  • 3 azzr币如何购买与销售

    azzr币是一种加密数字货币,它基于区块链技术运作,旨在为用户提供快捷、安全和匿名的交易方式。它具有去中心化的特点,没有任何中央机构进行管理,使得交易更加透明和公正。在购买azzr币之前,您需要选择一个可靠的交易所。以下是三家著名的交易所:1. 欧易交易所:欧易交易所是一家知名的数字货币交易平台。它提供多种加密货币交易对,包括azzr币。欧易交易所的优势在于交易流程简单易懂,用户体验良好。同时,欧

  • 4 LCT币最高的时候是多少钱?

    LCT币最高的时候是多少钱?世界上的数字货币市场波动很大,不同的币种在不同的时间会有不同的高峰和低洼。LCT币是一个比较新的数字货币,那么它最高的时候是多少钱呢?让我们来探讨一下。LCT币是基于区块链技术发行的数字货币,在2018年初开始在数字货币市场上出现。LCT币的全称为LendChain Token,它是LendChain平台上的代币,主要用于金融场合。通常来说,数字货币的价值和它的市场需求

  • 5 LEOX币历史价格走势怎么样?

    LEOX币历史价格走势怎么样?LEOX币是一种基于区块链的数字货币。自2018年以来,LEOX币的价格一直在波动。以下是LEOX币历史价格走势的情况:2018年1月 - 2018年4月:LEOX币于2018年1月首次上市,当时价格为0.1美元,但一直没冲高即使市场风口周期又是大牛市。在2月底的时候价格开始下跌,最低价格为0.05美元。到了4月份,LEOX币价格再次回升至0.09美元。2018年5月

  • 6 azzr币哪个市场有

    在加密货币市场中,有许多不同的数字货币,其中一种备受关注的是AZZR币。AZZR币是一种新兴的数字货币,它使用了最新的区块链技术来确保安全性和可扩展性。首先,让我们来了解一下欧易交易所。欧易交易所是一家知名的数字货币交易平台,提供多种货币的交易对。用户可以使用欧易交易所进行AZZR币的交易,并享受快速和安全的交易体验。该交易所提供了易用的交易界面和强大的交易工具,为用户提供了良好的交易体验。其次,

  • 7 LIF3币历史价格走势怎么样?

    LIF3币历史价格走势怎么样?作为加密货币市场一种非常新颖的数字资产,LIF3币价的变化一直备受市场关注。今天我们就来看看LIF3币的历史价格走势怎么样。2019年LIF3币在2019年伊始就开始了上市交易,当时每枚LIF3币的价格为0.071美元。然而,由于市场对于LIF3币的认知不足,价格一直稳定在这个水平。直到10月,LIF3币价格开始上涨,最终触及每枚0.79美元的高点。2020年2020

  • 8 BABYBNBTIGER币如何购买与销售

  • 9 LYRA币最高的时候是多少钱?

    LYRA币历史价值回顾LYRA币,是一种基于以太坊区块链技术的数字货币,其首次亮相于2018年4月。该币种的主要目的是作为跨平台数字资产交易和转移的一种工具。在这篇文章中,我们将回顾LYRA币的历史价值,了解它的最高价是多少钱。LYRA币的前世今生在2018年4月初,LYRA币首次上线交易所。当时该币种的价格仅为0.01美元左右。但是,仅仅不到一个月后,该币种的价格迅速上涨,达到每枚0.27美元。

  • 10 LYRA币的创始人是谁

    LYRA币的创始人是谁?LYRA币(LYR)是一种全新的加密货币,其创始人是加拿大的加密货币专家Joff Paradise。Joff Paradise的个人介绍Joff Paradise拥有超过10年的区块链技术研究经验,曾是一名加拿大的IT工程师。他擅长于研究区块链技术的发展历史和未来发展趋势,关注着全球区块链市场的变化和区块链投资风险分析。他还曾作为重要嘉宾参加区块链会议,并为不同投资者或投资