新模型Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了

时间:2024-09-22 编辑: 浏览:(765)

文章来源:硅星GenAI

作者|周一笑,丸丸柚贝

 编辑|王兆洋

图片来源:由无界AI生成

可媲美Sora的中国文生视频模型,就这么来了。

4月27日上午,在2024中关村论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu,它所展示的效果立刻刷屏。

据生数科技,Vidu支持一键生成16秒、1080P分辨率的视频内容。而从视频来看,Vidu的一致性、运动幅度都达到了Sora水准,虽然时长还比不上Sora的最长60秒,但整体上已经可以对标Sora。

生数的发布一如既往的低调,并没有什么发布会。但效果引发广泛关注,一时间“中国Sora”的称谓四起。

但我们第一时间和生数做了交流,这家核心团队来自清华人工智能研究院、由清华人工智能研究院副院长朱军博士牵头的公司对我们表示:

Vidu的视频时长会继续突破,“另外,我们的架构是支持多模态的,视频模态只是当前阶段最重要的。”据生数透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。

言下之意,还说生数科技是“中国sora”,就有点太没想象力了。

生数的野心比这更大。

逐帧拆解对比Vidu与Sora

在今年3月12日的一次交流中,生数科技联合创始人兼CEO唐家渝曾对我们表示:

“今年内一定能达到Sora目前版本的效果,但很难说是三个月还是半年”。

据我们了解,生数三月份就实现了8秒的视频生成,在四月份突破了16秒生成。今天的发布背后,短短两个月时间完成巨大进步。

这次的展示中,到底有哪些细节值得关注,我们第一时间逐帧对比了Vidu与Sora,话不多说,先来一起看一下。

经典走路名场面

Sora这个街头美女走路的视频也是刷爆的各大社交媒体,Vidu一出来就贴脸开大!不光生成街头美女走路,街头帅哥走路就连街头熊都给整出来了!

首先从人物、背景来看,Vidu的生成效果真的和Sora不相上下,但是人物动作协调性与Sora相比还是稍弱一些。

ViduSora

行驶中的越野车

越野车在丛林小道中穿梭,Vidu的丛林背景略有3D动画的效果,更像游戏中的一些场景,Sora的背景更具真实性一些。

ViduSora

中国龙

这一视频场景,二者生成的风格不太相同,Vidu展示的是现实中虚拟龙的形象,Sora是现实中舞龙舞狮真实存在的场景,但是二者对于龙的形象各种细节也都展现出了各自的特点。

另外,除了主体龙之外的背景两者都很真实,但是Sora的视频画面丰富度更高。

ViduSora

人物眼睛特写

这谁能分得清是真实拍摄还是AI生成啊!这一局我感觉Vidu真的不输Sora!

ViduSora

电视合集

Vidu确实是不怕对比的!这个画面丰富度和运镜真是一点不比Sora差。

ViduSora

狗狗

Sora生成的狗狗动态感、真实感更强一些,但是Vidu对狗狗游泳腿上的毛漂浮的细节处理的也相当不错。

ViduSora

猫和人

Vidu所展现是“带珍珠的猫”,虽然有点玄幻,但是镜头旋转之后,毛发细节感也是表现不错。

ViduSora

船与“海”

Vidu 的波浪流动十分符合物理规则。可以说与 Sora 不相上下。

而且,这里两者都提供了Prompt,可以直接对比,也能看到很多有趣的不同。

Vidu:“画室里的一艘船驶向镜头”Sora:“逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的场景。”

宇航员

Vidu更突出的是宇航员在太空生活的状态,Sora则更突出宇航员的人物脸部特写。

ViduSora

Vidu如何炼成:正确的技术路线+工程技术迁移

这次发布的视频,所有人肉眼可见的效果大幅进步,背后是如何做到的?

这看起来的突破其实是生数长期积累的结果。

OpenAI Sora的DiT架构融合了Diffusion和Transformer,不仅能够实现与GAN相媲美的图像生成质量,而且还具有更好的扩展性和计算效率。而通过使用Transformer结构代替传统Diffusion模型中常用的U-Net结构,DiT能够以更高效的方式处理数据,尤其是在处理大规模数据时,能够显著减少所需的计算资源,同时在视觉任务下展现出卓越的涌现能力。

在技术路线上,Vidu采用了和Sora完全一致的Diffusion和Transformer融合的架构。Vidu的底层基于生数自研的U-ViT架构,该架构由团队在2022年9月提出,实际上U-ViT是第一个融合了Diffusion 和Transformer的架构,比Sora的DiT架构更早。

图注:《All are Worth Words: A ViT Backbone for Diffusion Models》提出了网络架构U-ViT,这是Vidu最重要的技术基础。

市面上的部分视频生成工具增加视频长度的思路是采用的是插帧技术,这种方法通过在原始视频帧之间插入额外的帧来提升视频的流畅度和长度。插帧技术可以基于不同的算法实现,包括传统的运动补偿(MEMC)、深度学习方法,或是结合编解码器进行智能补帧等。Nvidia的SuperSlomo技术就是通过深度学习算法来预测并插入中间帧以实现视频的高帧率播放。

但同时插帧也会带来一些弊端。比如可能导致的画质下降,尤其是在快速运动或阴影处理上可能出现扭曲或模糊。

另外一些工具通过组合不同的模型和技术来生成看似较长的视频,例如,一些工具可能先使用Stable Diffusion或Midjourney等图像生成模型生成单张图像,然后通过图生视频的技术将这些图像转换成短视频,最后再将这些短视频进行拼接以形成更长的视频内容。

这些方法的确能够增加视频的长度,但它基本上还是依赖于“短视频生成”的工作流程。因此可能会在内容的流畅性和视觉表现上显得不够连贯,缺乏一些自然的过渡效果,而且在叙事和逻辑上可能也不如一个完整的长视频那样紧密。

Vidu基于U-ViT架构,不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的。感官上更加“一镜到底”,视频从头到尾连续生成,没有插帧痕迹。

除了U-ViT底层架构的创新,Vidu也离不开生数团队的工程化基础。

在2023年3月,基于 U-ViT 架构,生数在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型——UniDiffuser,并将其开源。UniDiffuser主要擅长图文任务,支持图文模态间的任意生成和转换。

据了解,UniDiffuser首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,UniDiffuser比最近才切换到DiT架构的Stable Diffsion 3早了一年。

此外,视频可以被看作是图像序列在时间轴上的扩展,因此处理图像的技术和经验可以迁移到视频处理中。例如Sora采用了DALL·E 3的重标注技术,对视觉训练数据进行精细地重标注和描述,使其生成视频时能够更准确地遵循用户的指令。

正是这些积累的工程经验,为生数从图文任务到视频任务的技术迁移打下了基础。

实际上,Vidu在视频生成任务中就复用了生数科技在图文任务中积累的多项技术经验,包括训练加速、并行化训练和低显存训练等,从而优化了训练流程。通过视频数据压缩技术和自研的分布式训练框架,实现了计算精度保证下的通信效率提升、显存开销的大幅度降低,以及训练速度的提升。

从图任务的统一到融合视频能力,Vidu可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。生数也透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。

根据朱军的解释,Vidu意味着We do、We did、We do together。生数也顺势推出了“Vidu大模型合作伙伴计划”。

“主要是希望吸引AI视频场景关注和感兴趣的产业应用伙伴,公司机构,包括一些个人创作者,包括上下游的产业伙伴,起探索应用场景。”

除了自研大模型,生数科技也研发垂类应用产品,旗下有视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft等,按照订阅等形式收费。

至于Vidu的产品化,生数科技留了个悬念,回复了硅星人四个字:

敬请期待。

最新 更多 >
  • 1 探索CEEX新币种CMC:连接社区 共创未来

    在当今快速发展的加密货币领域,一个经常被忽视但至关重要的因素正在逐渐显露其影响力——那就是社区的力量。社区不仅是推动创新和采纳的关键,也是加密货币生态系统中不可或缺的支柱。CEEX全币种交易所深刻地认识到社区在塑造加密货币未来中的核心作用,因此在2024年第二季度推出了一个经纪人发展激励计划,亦是作为第一个交易所推出的极致通缩的MeMe平台币——CMC(CEEX Manager Coin)。CMC

  • 2 ENS实验室提议扩展以太坊名称服务的第二层

    5月28日,ENS实验室提议将以太坊名称服务扩展到第二层扩展协议,称为“ENSv2” 该团队在一篇博客文章中表示:“我们不仅仅是在迁移ENS协议的核心部分。”然后补充说,它正在吸取Web3前沿过去七年的知识,旨在“从头开始重新构想架构” 介绍ENSv2:下一代ENS

  • 3 这枚主题的币在月120%后获得了ATH (指南:这不是PEPE)

    其他 未来的加密传感? 不断发展的币行业经常发出新的代币,其中一些吸引了行业参与者的注意力,并在短时间内变成了主要趋势.今年早些时候看到日光并成功吸引大众的其中一个资产是布雷特 (BRETT). 子主题的币价格在月度上升了130%后,今天 (5月29日) 创下历史最高值,超过0.09美元. 布雷特价格,来源:CoinGecko 据CoinGecko的数据,BRETT的市值已经达到10亿美元,目前

  • 4 突破0.0088 King代币即将迈向0.01里程碑

    King代币在最近的涨势中成功突破了0.0088的关键价位,这一壮举不仅是数字上的进展,更是KingPower生态系统强劲发展和社区共同努力的体现。距离0.01的里程碑仅一步之遥,我们坚信这标志着KingPower迈向更加辉煌的未来的新一步。随着King代币价值不断攀升,社区的热情也愈发高涨。每一次的涨势都吸引着投资者和爱好者的关注,他们迫切期待着King代币进一步增值,探索数字资产领域的新高度。

  • 5 如果 XRP 市值达到 3 万亿美元 其价格如下

    原文来源:钮轱辘瑶正如某些市场分析师预测的那样,如果 XRP 的市值增加 3 万亿美元,其价格可能会飙升至 54 美元。加密货币市场不断发展,资产多年来取得了令人瞩目的增长。XRP 在 2012 年推出后也实现了这种增长。例如,在 2017 年牛市期间,XRP 价格从 2017 年 1 月的 0.003 美元低点飙升至 2018 年 1 月的历史最高点 3.31 美元。XRP 的市值增长受阻此次反

  • 6 Avalanche (AVAX) 值得关注的 3 个价格水平

    原文来源:钮轱辘瑶正如著名的链上分析平台 IntoTheBlock 所强调的那样, Avalanche (AVAX)的投资者和交易者正在密切关注三个关键价格水平。这些水平对于预测加密货币的未来走势至关重要。Avalanche 的三个重要价格水平是什么?最初,AVAX 在 3 月 18 日达到局部高点65.39 美元,此后下跌约 45%,目前交易价格约为 36.72 美元。IntoTheBlock

  • 7 索拉纳在Cloudbet的高速交易上获得了动力

    威廉斯塔德,库拉索,2024年5月29日 云盘,一个领先的加密场和体育博彩平台,正在经历基于Solana的交易的显著增长,因为用户越来越认识到区块链的闪电快速和低费用的好处.虽然CoinGecko最近推广了Solana的令人印象深刻的每秒46倍的交易 (TPS) 与以太坊相比,Cloud盘用户正在充分利用区块链的能力来投注,存款和收取支付比以往任何时候都快. 云数据显示,Solana交易量从202

  • 8 黑格币 ($HEGE) 揭示了人工智能字符并发起了重大营销闪电

    首个以故事为导向的MemecoinHegeCoin ($HEGE) 于2个月前推出, 开始了其增长战略的下一阶段, 带来了两个主要发展, 通过拒绝低精力和低质量的人工智能生成图像,并手工制作所有图形和动画,HegeCoin是一个独特的,高质量的产品,在一个许多其他产品只专注于短期利的空间中. 随着HegeCoin的新奇想法,即将一个围绕Hege和其他三个的故事融入,以及一个潜在的故事的章节解锁和角

  • 9 Shiba Inu:影响价格的关键因素

    目录 简介PawFury(PAW):隐藏的宝石Shiba Inu(SHIB):记忆币感应波纹(XRP):跨境领导者结论 Shiba Inu(SHIB)已成为加密货币市场的重要参与者,有几个关键因素影响其价格。让我们与PawFury(PAW)和Ripple(XRP)等其他著名密码一起探讨这些因素。 PawFury(PAW):隐藏的宝石 PawFury(PAW)正在成为加密货币市场中一颗隐藏的宝石

  • 10 交易视野与爱达荷大学合作提高金融教育

    交易视频与爱达荷大学合作,为学生提供金融工具.该合作旨在丰富学生的教育经验,并为他们准备应对现实世界的市场挑战,市场分析和图表平台提到. 专用外汇云解决方案,具有稳定和快速的跨境连接,能够满足高需求的场景.阿里巴巴云帮助外汇交易者安全地和全球地运营.点击了解更多! 扩大教育视野 根据TradingView的说法,这项合作将为学生提供对世界市场的洞察,为他们提供在金融职业中取得卓越成就所需的技能.