Open-Sora全面开源升级:支持16s视频生成和720p分辨率

时间:2024-09-20 编辑: 浏览:(791)

文章来源:机器之心

图片来源:由无界AI生成

Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。

生成个横屏圣诞雪景,发b站

再生成个竖屏,发抖音

还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了

怎么玩?指路

GitHub:https://github.com/hpcaitech/Open-Sora

更酷的是,Open-Sora 依旧全部开源,包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例和详尽的上手教程。

Open-Sora 技术报告全面解读

最新功能概览

作者团队在GitHub上正式发布了Open-Sora 技术报告[1],根据笔者的了解,本次更新主要包括以下几项关键特性:

支持长视频生成;视频生成分辨率最高可达720p;单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求;提出了更稳定的模型架构设计,支持多时间/分辨率/长宽比/帧率训练;开源了最新的自动数据处理全流程。

时空扩散模型ST-DiT-2

作者团队表示,他们对Open-Sora 1.0中的STDiT架构进行了关键性改进,旨在提高模型的训练稳定性和整体性能。针对当前的序列预测任务,团队采纳了大型语言模型(LLM)的最佳实践,将时序注意力中的正弦波位置编码(sinusoidal positional encoding)替换为更加高效的旋转位置编码(RoPE embedding)。此外,为了增强训练的稳定性,他们参考SD3模型架构,进一步引入了QK归一化技术,以增强半精度训练的稳定性。为了支持多分辨率、不同长宽比和帧率的训练需求,作者团队提出的ST-DiT-2架构能够自动缩放位置编码,并处理不同大小尺寸的输入。

多阶段训练

根据Open-Sora 技术报告指出,Open-Sora 采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。相较于单一阶段训练,这种多阶段训练通过分步骤引入数据,更高效地实现了高质量视频生成的目标。

初始阶段大部分视频采用144p分辨率,同时与图片和 240p,480p 的视频进行混训,训练持续约1周,总步长81k。第二阶段将大部分视频数据分辨率提升至240p和480p,训练时长为1天,步长达到22k。第三阶段进一步增强至480p和720p,训练时长为1天,完成了4k步长的训练。整个多阶段训练流程在约9天内完成,与Open-Sora1.0相比,在多个维度提升了视频生成的质量。

统一的图生视频/视频生视频框架

作者团队表示,基于Transformer的特性,可以轻松扩展 DiT 架构以支持图像到图像以及视频到视频的任务。他们提出了一种掩码策略来支持图像和视频的条件化处理。通过设置不同的掩码,可以支持各种生成任务,包括:图生视频,循环视频,视频延展,视频自回归生成,视频衔接,视频编辑,插帧等。

支持图像和视频条件化处理的掩码策略

作者团队表示,受到UL2[2]方法的启发,他们在模型训练阶段引入了一种随机掩码策略。具体而言,在训练过程中以随机方式选择并取消掩码的帧,包括但不限于取消掩码第一帧、前k帧、后k帧、任意k帧等。作者还向我们透露,基于Open-Sora 1.0的实验,应用50%的概率应用掩码策略时,只需少量步数模型能够更好地学会处理图像条件化。在Open-Sora 最新版本中,他们采用了从头开始使用掩码策略进行预训练的方法。

此外,作者团队还贴心地为推理阶段提供了掩码策略配置的详细指南,五个数字的元组形式在定义掩码策略时提供了极大的灵活性和控制力。

掩码策略配置说明

支持多时间/分辨率/长宽比/帧率训练

OpenAI Sora的技术报告[3]指出,使用原始视频的分辨率、长宽比和长度进行训练可以增加采样灵活性,改善帧和构图。对此,作者团队提出了分桶的策略。

具体怎么实现呢?通过深入阅读作者发布的技术报告,我们了解到,所谓的桶,是(分辨率,帧数,长宽比)的三元组。团队为不同分辨率的视频预定义了一系列宽高比,以覆盖大多数常见的视频宽高比类型。在每个训练周期epoch开始之前,他们会对数据集进行重新洗牌,并将样本根据其特征分配到相应的桶中。具体来说,他们会将每个样本放入一个分辨率和帧长度均小于或等于该视频特性的桶中。

Open-Sora 分桶策略

作者团队进一步透露,为了降低计算资源的要求,他们为每个keep_prob和batch_size引入两个属性(分辨率,帧数),以减少计算成本并实现多阶段训练。这样,他们可以控制不同桶中的样本数量,并通过为每个桶搜索良好的批大小来平衡GPU负载。作者在技术报告中对此进行了详尽的阐述,感兴趣的小伙伴可以阅读作者在GitHub上发布的技术报告来获取更多的信息:https://github.com/hpcaitech/Open-Sora

数据收集和预处理流程

作者团队甚至对数据收集与处理环节也提供了详尽的指南。根据作者在技术报告中的阐述,在Open-Sora 1.0的开发过程中,他们意识到数据的数量和质量对于培育一个高效能模型极为关键,因此他们致力于扩充和优化数据集。他们建立了一个自动化的数据处理流程,该流程遵循奇异值分解(SVD)原则,涵盖了场景分割、字幕处理、多样化评分与筛选,以及数据集的管理系统和规范。同样,他们也将数据处理的相关脚本无私地分享至开源社区。对此感兴趣的开发者现在可以利用这些资源,结合技术报告和代码,来高效地处理和优化自己的数据集。

Open-Sora 数据处理流程

Open-Sora 性能全方位评测

视频生成效果展示

Open-Sora 最令人瞩目的亮点在于,它能够将你脑中的景象,通过文字描述的方式,捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象,现在得以被永久地记录下来,并与他人分享。在这里,笔者尝试了几种不同的prompt,作为抛砖引玉。

比如,笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久,松树上挂满了皑皑白雪,暗色的松针和洁白的雪花错落有致,层次分明。

又或者,在一个静谧夜晚中,你身处像无数童话里描绘过黑暗的森林,幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。

在空中俯瞰繁华岛屿的夜景则更是美丽,温暖的黄色灯光和丝带一样的蓝色海水让人一下子就被拉入度假的悠闲时光里。

城市里的车水马龙,深夜依然亮着灯的高楼大厦和街边小店,又有另一番风味。

除了风景之外,Open-Sora 还能还原各种自然生物。无论是红艳艳的小花,

还是慢悠悠扭头的变色龙, Open-Sora 都能生成较为真实的视频。

笔者还尝试了多种 prompt 测试,还提供了许多生成的视频供大家参考,包括不同内容,不同分辨率,不同长宽比,不同时长。

笔者还发现,仅需一个简洁的指令,Open-Sora便能生成多分辨率的视频短片,彻底打破创作限制。

分辨率:16*240p分辨率:32*240p分辨率:64*360p分辨率:480*854p

我们还可以喂给Open-Sora一张静态图片让它生成短片

Open-Sora 还可以将两个静态图巧妙地连接起来,轻触下方视频,将带您体验从下午至黄昏的光影变幻,每一帧都是时间的诗篇。

再比如说我们要对原有视频进行编辑,仅需一个简单的指令,原本明媚的森林便迎来了一场鹅毛大雪。

我们也能让Open-Sora 生成高清的图片 

值得注意的是,Open-Sora的模型权重已经完全免费公开在他们的开源社区上,不妨下载下来试一下。由于他们还支持视频拼接功能,这意味着你完全有机会免费创作出一段带有故事性的小短片,将你的创意带入现实。

权重下载地址:https://github.com/hpcaitech/Open-Sora

当前局限与未来计划

尽管在复现类Sora文生视频模型的工作方面取得了不错的进展,但作者团队也谦逊地指出,当前生成的视频在多个方面仍有待改进:包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战,作者团队表示,他们将在下一版本的开发中优先解决,以期望达到更高的视频生成标准,感兴趣的朋友不妨持续关注一下。我们期待Open-Sora社区带给我们的下一次惊喜。

开源地址:https://github.com/hpcaitech/Open-Sora

参考文献:[1]  https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md[2] Tay, Yi, et al. "Ul2: Unifying language learning paradigms." arXiv preprint arXiv:2205.05131 (2022).[3] https://openai.com/research/video-generation-models-as-world-simulators

最新 更多 >
  • 1 比特币预测转为看跌:你应该为更多的损失做好准备吗?

    由于无情的抛售,比特币有看跌倾向。过去一个月,积累一直很强劲,可能为复苏奠定基础。 比特币(BTC)的减半事件发生在近三个月前,但承诺的牛市尚未实现。一些投资者质疑为什么比特币即使在ETF的需求或通胀降温的情况下也在苦苦挣扎。 对长期指标的深入研究表明,比特币预测底部接近或已经触底可能是真的。 比特币预测:从价格走势中收集线索 4小时价格图显示区间形成(紫色)在53.5万美元至58.9万美元之间。

  • 2 CoinDesk 20业绩更新:随着指数上涨,UNI以3.8%的涨幅领先

    CoinDesk Indices发布每日市场更新,重点介绍CoinDesk 20指数中领先者和落后者的表现。 CoinDesk 20目前的交易价格为1860.56,自昨天收盘以来上涨了1.0%(+18.69)。 20种资产中有12种交易价格上涨。 领导者:UNI(+3.8%)和ADA(+2.5%)。

  • 3 BitGo在强烈抗议后调整了WBTC托管操作——发生了什么变化?

    在风险担忧之后,BitGo修改了其WBTC托管运营模式,Jupiter Exchange的创始人Meow对这些变化“满意” BitGo为其计划中的包裹比特币(WBTC)托管业务提出了一种新模式。新模型解决了最近在X Spaces反馈会议上提出的风险问题。 总部位于索拉纳的Jupiter交易所的匿名创始人Meow对这种新模式表示赞赏。事实上,他声称自己对这些变化感到“满意”。 “在空间之后,他们更

  • 4 特朗普与哈里斯之争殃及加密市场

    作者:Climber, 加密市场受美国大选的影响越来越大,从以太坊现货ETF的加速获批到近期加密行情背离美股走势,无不表明美国新总统人选走向愈加成为加密投资者的风向标。 自Polymarket上预测哈里斯当选概率首次超过特朗普以来,加密市场行情就开始连续走低。截止撰文,BTC已从62000美元位置下探至56000美元关口。其背后的主要原因在于哈里斯被提名至今尚未明确表示个人对加密的态度,而作为拜登

  • 5 美国抵押贷款创下新低:你可以用比特币买多少房子

    在抵押贷款利率调整之前,美国房地产市场一直是一个难以破解的难题。 在疫情和疫情前的低利率下,利率锁定使房主无法出售房屋或再融资。 美联储降息前抵押贷款利率下跌 与此同时,由于疫情时期的利率波动,待售房屋供应量低,导致房价居高不下。根据圣路易斯联邦储备银行的数据,截至8月8日,美国30年期固定利率抵押贷款降至6.47%。 11月,住房贷款利率升至近20年来的历史最高水平。抵押贷款利率徘徊在8%以下。

  • 6 特朗普与哈里斯之争 殃及加密市场

    作者:Climber,加密市场受美国大选的影响越来越大,从以太坊现货ETF的加速获批到近期加密行情背离美股走势,无不表明美国新总统人选走向愈加成为加密投资者的风向标。自Polymarket上预测哈里斯当选概率首次超过特朗普以来,加密市场行情就开始连续走低。截止撰文,BTC已从62000美元位置下探至56000美元关口。其背后的主要原因在于哈里斯被提名至今尚未明确表示个人对加密的态度,而作为拜登阵营

  • 7 Bybit超过4000万用户,在不到90天内获得1000万新用户

    [新闻稿-迪拜,阿拉伯联合酋长国,2024年8月16日] Bybit是世界上交易量第二大的加密货币交易所,很高兴宣布一个重要的里程碑,因为其全球注册用户群超过4000万。这一非凡成就突显了Bybit的快速增长,并巩固了其作为全球数百万加密货币爱好者和交易者首选平台的地位。 凭借对用户满意度和创新的坚定承诺,Bybit在短短90天内就见证了1000万新用户的惊人激增。这种指数级增长展示了该平台通过提

  • 8 低于6万美元的比特币:吸引主要市场参与者?

    比特币的价格一直低于6万美元的区间。经过几个月的分配,积累有所增加。 比特币[BTC]一直在6万美元以下交易,最近的数据表明,在这个价格整合阶段,各种实体已经开始积累比特币。 这种战略积累表明,一些投资者认为当前的价格区间是一个有利的切入点。尽管有这种积累,但同期钱包活动明显减少。 比特币进入积累阶段 AMBCrypto对比特币Glassnode趋势得分的分析表明,市场行为发生了显著逆转。 截至发

  • 9 德国出售其比特币控股-最新加密货币新闻

    比特币(BTC)目前的价格为58200美元,山寨币保持稳定。一个重要的发展是,德国已经完全出售了其持有的比特币。此次最终出售结束了困扰投资者的FUD(恐惧、不确定性和怀疑)。 内容隐藏1是什么导致了德国的决定?2这对投资者有何影响?投资者的3个关键要点 是什么导致了德国的决定? 在将最后价值2.23亿美元的比特币转移到Kraken交易所和其他地址后,德国政府的联邦刑事警察局(BK

  • 10 分析师称XRP风险回报率“疯狂”,目标价超过100美元

    市场分析师Moonshilla认为,XRP的风险回报率“非常好”,这表明该代币可能即将大幅上涨。 这位市场观察家展示了三张不同的图表来证实他的论点。据他介绍,XRPUSD、XRP市场主导地位和XRPBTC图表都表明,XRP在市场上处于有利地位。 XRPUSD整合 XRP/USD图表显示了一个整合阶段。Moonshilla指出,与2014年至2016年的上一个巩固期相比,这个巩固期几