Open-Sora全面开源升级:支持16s视频生成和720p分辨率

时间:2024-09-23 编辑: 浏览:(445)

文章来源:机器之心

图片来源:由无界AI生成

Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。

生成个横屏圣诞雪景,发b站

再生成个竖屏,发抖音

还能生成单镜头16秒的长视频,这下人人都能过把编剧瘾了

怎么玩?指路

GitHub:https://github.com/hpcaitech/Open-Sora

更酷的是,Open-Sora 依旧全部开源,包含最新的模型架构、最新的模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例和详尽的上手教程。

Open-Sora 技术报告全面解读

最新功能概览

作者团队在GitHub上正式发布了Open-Sora 技术报告[1],根据笔者的了解,本次更新主要包括以下几项关键特性:

支持长视频生成;视频生成分辨率最高可达720p;单模型支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求;提出了更稳定的模型架构设计,支持多时间/分辨率/长宽比/帧率训练;开源了最新的自动数据处理全流程。

时空扩散模型ST-DiT-2

作者团队表示,他们对Open-Sora 1.0中的STDiT架构进行了关键性改进,旨在提高模型的训练稳定性和整体性能。针对当前的序列预测任务,团队采纳了大型语言模型(LLM)的最佳实践,将时序注意力中的正弦波位置编码(sinusoidal positional encoding)替换为更加高效的旋转位置编码(RoPE embedding)。此外,为了增强训练的稳定性,他们参考SD3模型架构,进一步引入了QK归一化技术,以增强半精度训练的稳定性。为了支持多分辨率、不同长宽比和帧率的训练需求,作者团队提出的ST-DiT-2架构能够自动缩放位置编码,并处理不同大小尺寸的输入。

多阶段训练

根据Open-Sora 技术报告指出,Open-Sora 采用了一种多阶段训练方法,每个阶段都会基于前一个阶段的权重继续训练。相较于单一阶段训练,这种多阶段训练通过分步骤引入数据,更高效地实现了高质量视频生成的目标。

初始阶段大部分视频采用144p分辨率,同时与图片和 240p,480p 的视频进行混训,训练持续约1周,总步长81k。第二阶段将大部分视频数据分辨率提升至240p和480p,训练时长为1天,步长达到22k。第三阶段进一步增强至480p和720p,训练时长为1天,完成了4k步长的训练。整个多阶段训练流程在约9天内完成,与Open-Sora1.0相比,在多个维度提升了视频生成的质量。

统一的图生视频/视频生视频框架

作者团队表示,基于Transformer的特性,可以轻松扩展 DiT 架构以支持图像到图像以及视频到视频的任务。他们提出了一种掩码策略来支持图像和视频的条件化处理。通过设置不同的掩码,可以支持各种生成任务,包括:图生视频,循环视频,视频延展,视频自回归生成,视频衔接,视频编辑,插帧等。

支持图像和视频条件化处理的掩码策略

作者团队表示,受到UL2[2]方法的启发,他们在模型训练阶段引入了一种随机掩码策略。具体而言,在训练过程中以随机方式选择并取消掩码的帧,包括但不限于取消掩码第一帧、前k帧、后k帧、任意k帧等。作者还向我们透露,基于Open-Sora 1.0的实验,应用50%的概率应用掩码策略时,只需少量步数模型能够更好地学会处理图像条件化。在Open-Sora 最新版本中,他们采用了从头开始使用掩码策略进行预训练的方法。

此外,作者团队还贴心地为推理阶段提供了掩码策略配置的详细指南,五个数字的元组形式在定义掩码策略时提供了极大的灵活性和控制力。

掩码策略配置说明

支持多时间/分辨率/长宽比/帧率训练

OpenAI Sora的技术报告[3]指出,使用原始视频的分辨率、长宽比和长度进行训练可以增加采样灵活性,改善帧和构图。对此,作者团队提出了分桶的策略。

具体怎么实现呢?通过深入阅读作者发布的技术报告,我们了解到,所谓的桶,是(分辨率,帧数,长宽比)的三元组。团队为不同分辨率的视频预定义了一系列宽高比,以覆盖大多数常见的视频宽高比类型。在每个训练周期epoch开始之前,他们会对数据集进行重新洗牌,并将样本根据其特征分配到相应的桶中。具体来说,他们会将每个样本放入一个分辨率和帧长度均小于或等于该视频特性的桶中。

Open-Sora 分桶策略

作者团队进一步透露,为了降低计算资源的要求,他们为每个keep_prob和batch_size引入两个属性(分辨率,帧数),以减少计算成本并实现多阶段训练。这样,他们可以控制不同桶中的样本数量,并通过为每个桶搜索良好的批大小来平衡GPU负载。作者在技术报告中对此进行了详尽的阐述,感兴趣的小伙伴可以阅读作者在GitHub上发布的技术报告来获取更多的信息:https://github.com/hpcaitech/Open-Sora

数据收集和预处理流程

作者团队甚至对数据收集与处理环节也提供了详尽的指南。根据作者在技术报告中的阐述,在Open-Sora 1.0的开发过程中,他们意识到数据的数量和质量对于培育一个高效能模型极为关键,因此他们致力于扩充和优化数据集。他们建立了一个自动化的数据处理流程,该流程遵循奇异值分解(SVD)原则,涵盖了场景分割、字幕处理、多样化评分与筛选,以及数据集的管理系统和规范。同样,他们也将数据处理的相关脚本无私地分享至开源社区。对此感兴趣的开发者现在可以利用这些资源,结合技术报告和代码,来高效地处理和优化自己的数据集。

Open-Sora 数据处理流程

Open-Sora 性能全方位评测

视频生成效果展示

Open-Sora 最令人瞩目的亮点在于,它能够将你脑中的景象,通过文字描述的方式,捕捉并转化为动人的动态视频。那些在思维中一闪而过的画面和想象,现在得以被永久地记录下来,并与他人分享。在这里,笔者尝试了几种不同的prompt,作为抛砖引玉。

比如,笔者尝试生成了一个在冬季森林里游览的视频。雪刚下不久,松树上挂满了皑皑白雪,暗色的松针和洁白的雪花错落有致,层次分明。

又或者,在一个静谧夜晚中,你身处像无数童话里描绘过黑暗的森林,幽深的湖水在漫天璀璨的星河的照耀下波光粼粼。

在空中俯瞰繁华岛屿的夜景则更是美丽,温暖的黄色灯光和丝带一样的蓝色海水让人一下子就被拉入度假的悠闲时光里。

城市里的车水马龙,深夜依然亮着灯的高楼大厦和街边小店,又有另一番风味。

除了风景之外,Open-Sora 还能还原各种自然生物。无论是红艳艳的小花,

还是慢悠悠扭头的变色龙, Open-Sora 都能生成较为真实的视频。

笔者还尝试了多种 prompt 测试,还提供了许多生成的视频供大家参考,包括不同内容,不同分辨率,不同长宽比,不同时长。

笔者还发现,仅需一个简洁的指令,Open-Sora便能生成多分辨率的视频短片,彻底打破创作限制。

分辨率:16*240p分辨率:32*240p分辨率:64*360p分辨率:480*854p

我们还可以喂给Open-Sora一张静态图片让它生成短片

Open-Sora 还可以将两个静态图巧妙地连接起来,轻触下方视频,将带您体验从下午至黄昏的光影变幻,每一帧都是时间的诗篇。

再比如说我们要对原有视频进行编辑,仅需一个简单的指令,原本明媚的森林便迎来了一场鹅毛大雪。

我们也能让Open-Sora 生成高清的图片 

值得注意的是,Open-Sora的模型权重已经完全免费公开在他们的开源社区上,不妨下载下来试一下。由于他们还支持视频拼接功能,这意味着你完全有机会免费创作出一段带有故事性的小短片,将你的创意带入现实。

权重下载地址:https://github.com/hpcaitech/Open-Sora

当前局限与未来计划

尽管在复现类Sora文生视频模型的工作方面取得了不错的进展,但作者团队也谦逊地指出,当前生成的视频在多个方面仍有待改进:包括生成过程中的噪声问题、时间一致性的缺失、人物生成质量不佳以及美学评分较低。对于这些挑战,作者团队表示,他们将在下一版本的开发中优先解决,以期望达到更高的视频生成标准,感兴趣的朋友不妨持续关注一下。我们期待Open-Sora社区带给我们的下一次惊喜。

开源地址:https://github.com/hpcaitech/Open-Sora

参考文献:[1]  https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md[2] Tay, Yi, et al. "Ul2: Unifying language learning paradigms." arXiv preprint arXiv:2205.05131 (2022).[3] https://openai.com/research/video-generation-models-as-world-simulators

最新 更多 >
  • 1 如何购买BADGER币?

    如何购买BADGER币?如果您对BADGER币感兴趣并希望购买一些数量,本文将向您介绍几种常用的购买方式。1. 选择交易所首先,您需要选择一个可信赖的加密货币交易所,比如Binance、Coinbase等。这些交易所具有良好的声誉和丰富的交易流动性,您可以注册一个账户并完成KYC(了解您的客户)验证。2. 购买比特币大多数加密货币交易所只支持以比特币(BTC)或以太坊(ETH)购买其他加密货币。因

  • 2 UNI币的当前市值、价格和流通量是多少?

    UNI币的当前市值、价格和流通量UNI币是Uniswap交易所的原生代币,是基于以太坊区块链的去中心化交易平台。它的发行于2020年9月17日,上线不久便成为了区块链世界的热门话题。让我们来了解一下UNI币的当前市值、价格和流通量。首先,让我们来看一下UNI币的当前市值。UNI币的市值是根据其总的流通量和当前价格来计算的。根据CoinMarketCap的数据,截至目前,UNI币的市值约为xxx亿美

  • 3 XLM恒星币的商业模式和盈利方式是什么?

    XLM恒星币的商业模式和盈利方式 恒星币(Stellar Lumens,简称XLM)是一个去中心化的开源支付网络和协议,旨在加速全球金融系统的发展和普及。该货币的商业模式和盈利方式是基于以下几个方面: 1. 基础通证运作 恒星币的商业模式的第一个方面是作为加密货币通证的基本功能。恒星币是在恒星网络上发行的数字资产,用于在该网络上进行安全、快速和廉价的价值传输。通过恒星网络,用户可以将恒星币用作

  • 4 BLUR币的市值和流通量是多少?

    BLUR币的市值和流通量是多少?BLUR币是一种加密货币,它以匿名保护和隐私为主要目标。与其他加密货币不同,BLUR币专注于隐藏交易双方的身份和交易金额。由于其独特的特性,BLUR币在加密货币市场上引起了广泛关注。那么,BLUR币的市值和流通量究竟是多少呢?让我们一起来了解。截至目前,BLUR币的市值约为XXX万美元。市值是指某种资产的总价值,计算方法是将该资产的流通量乘以当前的价格。BLUR币作

  • 5 FIL币在全球的用户基础和市场接受度如何?

    FIL币在全球的用户基础和市场接受度如何?Filecoin(FIL)是一个基于区块链技术的去中心化存储网络,旨在改变现有的云存储行业,通过激励用户提供存储空间,并使用加密技术来保护用户数据。自2017年ICO(首次币发行)以来,FIL币一直备受关注,并在全球范围内获得了广泛的用户基础和市场接受度。首先,FIL币在全球范围内拥有庞大的用户基础。根据统计数据,FIL币的用户来自于全球200多个国家和地

  • 6

  • 7 KAS币的开发团队和项目历史是什么?

    KAS币的开发团队和项目历史KAS币是一种基于区块链技术的加密货币,其开发团队致力于构建一个去中心化的金融系统,为用户提供安全、快速和低成本的支付和转账服务。以下是KAS币的项目历史和团队介绍。项目历史KAS币项目于2018年由一群热衷于区块链技术的年轻人发起。项目最初旨在构建一个去中心化的支付和转账系统,以满足用户对安全和高效支付的需求。经过几个月的开发和测试,KAS币在2019年正式发布,并于

  • 8 如何在Big Time游戏中有效使用BIGTIME币?

    如何在Big Time游戏中有效使用BIGTIME币?Big Time是一款流行的手机游戏,许多玩家都喜欢挑战其中的各种关卡和任务。游戏中有一种虚拟货币叫做BIGTIME币,它可以用来购买道具、游戏币以及其他各种增强游戏体验的物品。以下是一些有效使用BIGTIME币的方法,帮助你在游戏中取得更大的优势。1. 神秘箱子游戏中有很多神秘箱子可以使用BIGTIME币购买。这些箱子里面可能包含游戏币、稀有

  • 9 如何在Badger DAO平台上使用BADGER币?

    如何在Badger DAO平台上使用BADGER币?Badger DAO是一个去中心化自治组织,致力于为用户提供比特币DeFi解决方案。BADGER币是Badger DAO平台的原生代币,用户可以使用BADGER币参与平台的治理、挖矿和奖励等活动。下面将介绍如何在Badger DAO平台上使用BADGER币。1. 创建钱包在开始使用Badger DAO平台之前,首先需要创建一个钱包。可以选择使用M

  • 10 BADGER币的未来发展方向是什么?

    BADGER币的未来发展方向是什么? BADGER币是一个基于区块链技术的加密货币,它的未来发展充满了许多潜力和机会。随着区块链技术的不断发展和广泛应用,BADGER币有望成为全球范围内的主流数字货币之一。推动价值提升的生态建设 BADGER币未来的发展方向之一是通过生态建设来推动其价值的提升。生态建设旨在打造一个完整的BADGER币应用生态系统,吸引更多的开发者和用户参与其中。通过与各种项目、平