零一万物Yi-1.5来了,国产开源大模型排行榜再次刷新

时间:2024-09-20 编辑: 浏览:(776)

文章来源:机器之心

图片来源:由无界AI生成

在 OpenAI 发布会的前一天,来自中国的大模型公司零一万物,让开源大模型社区活跃了起来:Yi 大模型家族新成员「Yi-1.5」模型正式开源。

在项目主页可以看到,Yi-1.5 包括一系列预训练和微调模型,分为 6B、9B、34B 三个版本,采用 Apache 2.0 许可证。

GitHub 地址:https://github.com/01-ai/Yi-1.5Hugging Face 模型下载地址:https://huggingface.co/01-ai

据了解,Yi-1.5 是 Yi-1.0 的持续预训练版本,使用 500B 个 token 来提高编码、推理和指令执行能力,并在 300 万个指令调优样本上进行了精细调整。

刚一发布,就已经有开发者跃跃欲试:

并收获了好评:

与前序模型相比,Yi-1.5 系列模型进一步提升了编码、数学、推理和指令遵循能力。从下方多个基准测试结果可以看出,Yi-1.5 34B 型号的一些指标超过了 Qwen 的 72B,几乎与 Meta Llama 3 的 70B 相当。6B 和 9B 型号也成功超越了 Mistral 的 7B v0.2 版和 Gemma 的 7B 型号。

重磅消息当然不止这一个。

在成立一周年之际,零一万物宣布面向国内市场一次性发布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保证客户能够在不同场景下都能找到最佳性能、最具性价比的方案,Yi API Platform 英文站同步对全球开发者开放试用申请。

Yi 大模型 API 开放平台 (https://platform.lingyiwanwu.com/)

其中,千亿参数规模的 Yi-Large API 具备超强文本生成及推理性能,适用于复杂推理、预测,深度内容创作等场景,每百万 token 的价格是 20 元,是 GPT-4-turbo 的三分之一。

Yi-Large-Turbo API 则根据性能和推理速度、成本,进行了平衡性高精度调优,适用于全场景、高品质的推理及文本生成等场景。Yi-Medium API 优势在于指令遵循能力,适用于常规场景下的聊天、对话、翻译等场景;如果需要超长内容文档相关应用,也可以选用 Yi-Medium-200K API,一次性解读 20 万字不在话下;Yi-Vision API 具备高性能图片理解、分析能力,可服务基于图片的聊天、分析等场景;Yi-Spark API 则聚焦轻量化极速响应,适用于轻量化数学分析、代码生成、文本聊天等场景。

其中特别要提到的是发布会现场正式亮相的千亿参数 Yi-Large 闭源大模型。Yi-Large 面世的同时即正式进军全球 SOTA 顶级大模型之首。可以看到,与 GPT-4、Claude3 Sonnet、Gemini 1.5 Pro 以及 Llama 3-70B-Instruct 等当前顶级模型的较量中,Yi-Large 在绝大多数情况下取得了优势。

同时,在斯坦福大模型排行榜 AlpacaEval 的英语评测中,Yi-Large 达到全球大模型 Win Rate 第一。在中文通用大模型综合性基准 SuperCLUE 的中文语言理解排名中,Yi-Large 一跃成为国产大模型 No. 1。

中文能力方面,SuperCLUE 更新的四月基准表现中,Yi-Large 也位列国产大模型之首,Yi-Large 的综合中英双语能力皆展现了卓越的性能。

在发布会上,李开复还宣布,零一万物已启动下一代 Yi-XLarge MoE 模型训练,将冲击 GPT-5 的性能与创新性。从 MMLU、GPQA、HumanEval、MATH 等权威评测集中,仍在初期训练中的 Yi-XLarge MoE 已经与 Claude-3-Opus、GPT4-0409 等国际厂商的最新旗舰模型互有胜负。

Yi-XLarge 初期训练中评测(2024 年 5 月 12 日)。

至此,零一万物已经建立了「双轨模型策略」。

近期上线的一站式 AI 工作站「万知」(wanzhi.com/ 微信小程序「万知 AI」)则是零一万物基于世界领先的闭源模型 Yi-Large 所做出的「模应一体」生产力应用。

而对于大众和行业最关心的「大模型落地如何产生价值」的命题,李开复指出,国内大模型赛道的竞跑从狂奔到长跑,终局发展将取决于各个选手如何有效达到「TC-PMF」(Product-Market-Technology-Cost Fit,技术成本 X 产品市场契合度)。大模型从训练到服务都很昂贵,算力紧缺是赛道的集体挑战,行业应当共同避免陷入不理性的 ofo 式流血烧钱打法,让大模型能够用健康良性的 ROI 蓄能长跑。

在李开复博士看来,自研 AI Infra 是零一万物必然要走的路,零一万物也自成立起便将 AI Infra 设立为重要方向,着力于实现计算效率的优化。AI Infra(AI Infrastructure  人工智能基础架构技术)主要涵盖大模型训练和部署提供各种底层技术设施。这也基于一个既定事实,很多大模型公司没有美国大厂的 GPU 数量,因此要采取更务实的战术和战略。

零一万物着力于实现计算效率的优化,经过多方面优化后,零一万物千亿参数模型的训练成本同比降幅达一倍之多。

最新 更多 >
  • 1 商业化能力不断提升,B站(BILI.US)离收获期还有多远?

    B站商业化时间是指在B站视频平台上进行商业推广和广告投放的时间。在这段时间内,品牌和商家可以通过与B站合作,向用户推广他们的产品和服务,以提高品牌知名度和销售额。通过在B站商业化时间内投放广告和合作推广活动,商家可以有效地吸引目标受众,提升营销效果。

  • 2 日本央行维持超低利率 上调2022财年通胀预期

    日本央行决定维持超低利率,并上调了2022财年的通胀预期。这意味着央行对未来经济的增长和通胀的预期更为乐观,可能会采取更加宽松的货币政策来支持经济增长。这一举措也显示出央行对当前通货膨胀的忧虑,以及对未来经济走势的信心。

  • 3 俄挫败乌方对通往欧洲油气设施恐袭计划 欧洲气价小幅波动

    俄罗斯挫败了乌克兰对通往欧洲油气设施的恐袭计划,导致欧洲气价出现了小幅波动。这一事件引发了各方的关注,也凸显了欧洲对于俄乌冲突的担忧。

  • 4 佐丹奴国际(00709)第三季度销售额飙升34%至8.78亿港元

    佐丹奴国际(00709)公布了第三季度的销售额,销售额飙升34%达到8.78亿港元。这一成绩显示了公司在市场上的强劲表现,为投资者带来了积极的信号。随着销售额的持续增长,公司未来的发展前景也备受期待。

  • 5 东江环保(00895)收到《中国证监会行政许可申请恢复审查通知书》

    本通知书是中国证监会对申请行政许可的受理通知,通知申请人已经提交的材料已收到,并会依照相关程序进行审批。同时,要求申请人按规定补充所需材料,以便尽快进行审批。

  • 6 驰宏锌锗(600497.SH):高纯金属材料产业链延伸取得实质性进展

    驰宏锌锗是一家专注于锌和锗产业的公司,其主要业务包括锌和铅锌矿的开采和加工,以及锗产品的生产和销售。最近的分析显示,随着全球经济的复苏和工业生产的增长,锌和锗市场需求持续增加,这将为驰宏锌锗带来更多的发展机遇。与此同时,公司正在加大对生产技术和研发能力的投入,以提升产品质量和创新能力,进一步巩固自身在锌锗行业的领先地位。可以预见,随着市场竞争的持续激烈,驰宏锌锗将不断加强自身的核心竞争力,实现业务

  • 7 名创优品(09896)10月24日耗资约49.95万美元回购43.6万股

    名创优品股价暴跌,引发市场关注。近期,该公司股票价格急剧下跌,让投资者感到惊讶和担忧。有分析人士指出,公司业绩疲软、财务状况恶化等因素可能导致了股价的大幅下跌。投资者们纷纷表达忧虑,担心公司未来的发展和前景。名创优品股价暴跌一事成为了市场焦点,也让人们开始重新审视该公司的经营状况和前景。

  • 8 能源危机惹的祸 欧洲钢铁、化肥等生产商跑路去美国了

    能源危机使得欧洲钢铁、化肥等生产商开始纷纷选择离开欧洲,转而前往美国寻求更加稳定的能源供应。这些企业的外流导致欧洲经济受到严重影响,引发了一系列的问题和争议。

  • 9 中金:维持周大福(01929)“跑赢行业”评级 目标价17.02港元

    中金维持周大福(01929)的“跑赢行业”评级,并将目标价设定为17.02港元。根据研究报告,中金认为周大福在珠宝市场表现良好,预计公司将继续保持竞争优势并取得稳定增长。因此,中金建议投资者继续关注周大福股票,并看好其未来发展前景。

  • 10 大摩:逆风因素多多 但苹果(AAPL.US)仍为抵御经济低迷首选股

    大摩认为,尽管面临诸多逆风因素,包括经济低迷等,但苹果仍然是抵御这些挑战的首选股。苹果具有强大的产品创新能力和品牌影响力,有望在艰难的市场环境中表现突出。因此,投资者可以考虑将苹果列为投资组合中的重要部分。