深度|AIGC 视频应用的突破口在 3D?文生视频发展技术路径辨析

时间:2024-09-22 编辑: 浏览:(455)

文章来源:有新Newin

图片来源:由无界AI生成

OpenAI推出Sora在业界掀起了巨大的波澜,引发了科技圈内的激烈讨论与交锋。图灵奖得主、Facebook首席AI科学家杨立昆公开质疑Sora仅停留在生成像素的层面,缺乏对物理世界的深入理解。而360董事长周鸿祎与猎豹CEO傅盛也在这一话题上产生了不同看法。

不仅仅是海外,国内也有不同技术路径的文生视频产品推出。今年3月,魔珐科技推出了有言AIGC一站式3D视频平台,这款产品以其独特的技术路径和成熟的产品形态,引发了行业的关注。文生视频赛道,注定将成为整个2024年科技圈讨论的焦点话题,正如ChatGPT在2023年所引发的热潮。

01. AI视频生成的进步与待突破的卡点

去年初,OpenAI发布的大语言模型ChatGPT掀起了一轮人工智能的热潮。ChatGPT上线后,几乎所有全球科技大厂都全速投入AI领域,发布了自己的大语言模型,影响着人们日常搜索信息、查找资料的方式发生改变。

而文生视频模型Sora的发布,更直观地呈现了AI技术正在以何种速度飞速发展。作为一种扩散模型技术,sora的底层技术与GPT模型相类似,使用了Transformer架构。可以说相对于去年的文生视频产品来说,sora是对原有产品能力的升级,比如提升了时长,在单一空间内解决了时空一致性问题。

与sora类似的产品,如Pika、Runway、Genmo、Stable Video Diffusion等近十款产品,本质都是一种技术路径下的产物。他们的底层技术核心都是基于互联网上海量的视频进行大模型训练,再基于大模型AIGC生成视频。

这一技术路径的优势在于,在于网络上海量的视频素材多,很容易拿到训练数据,这也符合OpenAI一贯信奉的以海量数据投喂模型从而实现突破的“暴力美学”。

但这种技术路径有诸多局限性和悬而未解的问题,AI视频路径当前存在的问题包括:

1)时空的一致性(人,镜头,场景):如何使角色、物体和背景在帧之间保持一致而不变形或扭曲,或者数量保持一致?这是所有公开可用模型中常见问题。从技术角度来说,现阶段模型还很难理解物理世界的时空规律。在单一空间或者镜头可以实现,但跳出单一空间后,很难保证人、镜头、场景的时空一致性。

2)可控性、可编辑以及确定性:控制场景中发生的事情。例如,如果你提示“男子向前走”,运动是否如所描述的那样?再比如画面中出现各内容元素(场景、灯光、人物、表演、台词、镜头、素材等)是否能够按照提示词保证确定性的内容输出,或者可以控制和修改。

3)时长:能否制作更长的视频。60s的时长显然还不足以支持视频实际应用。而这一瓶颈很可能与时间一致性密切相关。许多工具限制生成的视频的长度,是因为无法确保几秒钟后的全部一致性。更长的时长,生成完整的视频依然是挑战。

4)产品的完整性:是否可以一站式满足创作者的需求,比如是否可以编辑镜头,动作,或者加后期包装,从产品的角度来说,一站式,不用在不同产品之间跳来跳去,这对创作者来说是很重要的。

5)产品化以后的成本以及商业化的可行性:产品化需要考虑性价比,而目前的算力成本高昂,如何降低成本实现规模化应用,恐怕也是不得不面对的问题。

这种技术路径,在视频生成的想象力方面还是有着不错的表现,非常适合创意类视频生成。

但对大多数创作者来说,视频需要能够精准的画面、镜头以及视频内容的精准呈现。比如我们需要一段冬日街道的视频素材,视频中呈现的应该是飘雪的街景和身着冬装的行人。但从sora的demo视频来看,人们却衣着单薄的走在白色的街道,街边还出现了盛开的樱花。这种细节的不可控,让素材的可用性大打折扣。

此外,在商业视频场景中,不论是产品发布会,知识分享,种草视频,还是教育培训视频,都需要内容的“高信息密度”和”精准控制“。如何实现可控性、可编辑性将成为AI生成视频技术路径最需要突破解决的问题。

02. 已商用落地的曙光 —— 文生3D

实际上,早在Sora出现前,全球唯一一款可商业落地的AIGC 3D视频生成产品就已经诞生。这是一款名为“有言”的产品,今年3月正式面向所有用户开放。根据企业公开采访显示,这款产品在正式向公众开放前,已经服务了各行各业的近50家头部客户。

根据公开采访显示,有言在官网正式面向公众前,就有近50家各行业的头部客户付费购买了企业旗舰版产品,其中包含东吴证券、中金财富、央视网、广州广电、苏州广电、海尔集团、方太集团、老板电器、斯凯奇、中伦律所、爱尔眼科、自然堂、金巴厘集团等头部企业,行业覆盖金融、广电、 3C、美护、文旅、政务、律所、酒水、教育、培训、医美等各领域。

事实上,3D视频的AIGC技术热度早已不是资本圈的秘密。今年年初,美国AI 3D创业公司「Luma AI」近日完成4300万美元B轮融资,由大名鼎鼎的A16Z独家投资。无独有偶,3月初,一份由中泰证券公布的研报认为,多模态已经成为了业界普遍认同的发展趋势。该研报认为,继文本、代码、图片和视频之后,3D有望成为下一个有望实现技术突破的重要模态。

而有言这款产品之所以备受关注,原因在于其具备了可商用的产品成熟度,并且对AI视频生成路径的一些卡点实现了突破。当3D技术落地于产品,令人惊叹的同时,也展示了一条独特的3D内容AIGC的技术路径。

通俗来说,这种技术路径是借助3D内容AIGC技术,实现了包含3D场景、灯光、3D人物表现、3D镜头的AIGC生成,然后再基于实时引擎技术(渲染+物理解算)生成2D视频。从本质上讲,这种技术生成得其实是3D视频, 也就是说可以通过实时渲染引擎直接生成各个视角的视频,其生成视频可直接显示在各类AR/VR终端, 比如Vision Pro。

我们把内容的生成过程拆分,可以发现主要有两个维度:

1)3D内容生成:与现实世界视频拍摄一致,视频中包含角色、场景、运镜、灯光、屏幕内的素材等视频要素,而3D视频生成,也可以将其拆解为3D人物、3D场景、3D镜头、素材(屏幕)等要素。通过这些3D视频要素的的AIGC化,从而实现3D视频的AIGC生成。

2)后期包装:在完成视频生成环节(替代拍摄),用户往往需要进入视频后期包装的环节,因此代表产品有言为用户提供了包含镜头剪辑、素材编辑、音效配乐、字幕包装、片头片尾等各个环节的产品功能。

这条技术路径的好处是,视频的创作过程就是对现实3D世界的“模拟”。通过实现从3D资产到视频各要素的AIGC生成,从而保证了与现实世界的一致性。这种技术路径不会出现AI对世界的错误理解,能够解决时空一致性问题,并且不会出现时空错乱等物理错误。

此外,由于整个生成过程都可以编辑,因此可控性很强。在保证AIGC高效率生成的同时,还可以加入3D内容编辑的能力,规避了AI生成不可控的问题,也不受视频时长的限制。

与真实世界视频生产过程一致的方式,以代表产品有言为例,后期包装等功能的融入,解决了AI视频生成路径下难以实现一站式的视频制作的难点。

这条路径的代表产品,有言是全球唯一一款高质量、高效率、低成本、低门槛、规模化的3D视频生成产品。也是全球唯一一款被应用落地的3D AIGC 3D内容产品。由于3D视频的生产过程就是对真实物理世界的还原,也是对视频拍摄、视频后期两大环节的还原。因此,有言很好的解决了时空一致性问题。

有言可以实现视频要素的AIGC,并开放了部分环节的人工编辑,因此解决了视频生成的可控性问题。此外,视频的时长也完全能够用户的需求调整,完全不受视频时长限制。

此外,有言融入了视频创作的全部环节,除替代拍摄的视频生成外,还将视频包装后期的全部环节融入,相当于将视频创作的工作流全部融入了视频创作。创作者从此无需借助单点AI工具,而是可以借助有言一站式完成所有视频创作的工作环节。

有言是一款具备时空一致性、内容可控、可任意时长、可生成确定视频内容的一站式视频创作工具。

当然,以有言为代表的这条技术路径虽然具备优势,但同时也面临着比较大的壁垒和挑战:

首先是,底层需要依托于高质量的3D数据。首先是高质量3D数据的积累。很多业内的公司依然依靠软件和制作人员手工打造,由于3D内容的难度大,目前市面上的公司生产的内容也参差不齐。而很多技术公司,由于缺乏底层的高质量3D训练数据,因此进入这一领域的门槛非常高。

其次,需要具备全栈的AIGC能力。由于视频的各要素都需要实现AIGC,这也意味着这一技术路径不是单纯的文本AIGC,或者图片AIGC,而是具有文本、声音、动画各个维度的生成技术突破。而从视频来看,文本、素材、场景、包装的全维度AIGC其实非常难。

再次,AIGC everything。以有言为例,实现产品化,并在产品化过程中先将最难的要素先AIGC,比如说动画。未来逐渐实现全面的AIGC化,这条路径同样面临着技术的挑战。

但在demo的畅想和已经落地可用可控的产品之间,文生3D的技术可行性与价值毋庸置疑。

03. 技术变革来袭 视频生成拐点已至?

无论是OpenAI推出的创意内容产品Sora,还是以有言为代表的AI视频生成产品,视频生成类应用的广泛落地,对各个行业而言,一定是机遇。

但如果冷静的从技术视角来看,两种技术路径的发展都面临着各自的挑战。

今年3月初,Sora核心团队三位负责人接受采访时曾提到过,Sora目前还处于反馈获取阶段,还不是一个产品,短期内不会向公众开放。对sora而言,AI 视频生成领域的难点在于,即实际生产和技术研究之间存在的距离。

行业内人士认为,真正的难点是技术是否能真正满足视频制作者的需求,并与其实际工作流程相契合。只有当技术足够越靠近生产的时候,它才会产生更大的经济价值。

这点与有言得以产品化的初衷非常相似,如魔珐创始人兼CEO柴金祥认为的,所有科技企业来说最重要的还是PMF(Product Market Fit 产品市场匹配度),即能不能找到更契合市场的产品,多长时间能得到验证。

给企业与个人提供一款真正可商用的规模化产品,具备产品化形态、可商用落地,正是有言今天在做的事情。不仅仅是视频的生成,而是以成熟的产品化形态,真正契合企业的工作流需求,以实际场景出发解决企业问题,或许才是技术生产力提升带来的真正价值。

视频全流程的AIGC对企业技术综合能力有着更高的要求。与AI视频生成路径相比,文生3D的技术路径的产品化进程更快,但走向AIGC化的终局同样面临着巨大的挑战。

24年的开年,是属于视频生成的。成熟产品化形态的产品已经出现,AI视频生成技术也迎来了巨大的突破,一切都令人欣喜与期待。

虽然长路皆有挑战。但好在,一场视频生成的变革已经开启,落成和实现或许就是时间问题了。

PS:回顾 2023 年至今,大部分 AI 炒作都集中在基础模型的横向能力上,但 AI 的真正机会在于 AI 以及 Agent 如何重新配置与创造 B2B 价值链,112 家顶尖 VC 评选出 2024 年 Top30 科技初创公司,接近 50% GenAI,SaaS 不到 1/4。

最新 更多 >
  • 1 Dollar General卖礼品卡吗?

    您的指南:Dollar General卖礼品卡吗? 所以,你需要一份礼物,而你正在考虑一张礼品卡?也许你会制作一些很酷的定制礼品袋,但想在预算上轻松一些。你在考虑打Dollar General。 好吧,如果你也能在那里送一张礼品卡,那不是很酷吗?今天我们要回答一个问题:Dollar General卖礼品卡吗? 继续阅读以找出答案。 另请阅读:金砖国家:专家称美国经济因美元紧张而陷入萧条

  • 2 Cardano鲸在下跌30%的情况下每天囤积130亿美元的ADA——前方是牛市吗?

    ADA鲸鱼强化了硬币积累。这是在altcoin价值持续下跌的情况下发生的。 尽管上个月的价值下降了30%,但Cardano[ADA]鲸鱼仍在继续积累altcoin。 链上数据提供商IntoTheBlock在X(前身为推特)上的一篇帖子中指出,上周,ADA记录的大额交易日均金额为138.4亿美元。 它进一步补充说,这相当于比特币[BTC]当前交易量的三分之一,是莱特币[LTC]交易量的五倍,是领先的

  • 3 Sui与谷歌云合作,以增强的安全性、可扩展性和人工智能功能推动Web 3.0创新

    2024年4月30日-加利福尼亚州帕洛阿尔托 协作的重点是通过数据驱动的见解、人工智能驱动的开发工具和零知识证明来应对Web 3.0的关键挑战。 Sui是由负责构建Facebook Libra和Diem项目的核心研究团队创建和推出的第一层区块链和智能合约平台,它正与谷歌云合作,通过与Mysten实验室的合作,支持Web 3.0的未来。 这项联合努力将侧重于增强一系列Web 3.0和人工智能应用

  • 4 DWV行情周报 | 降息预期再受挫 风险情绪降温

    一、上周回顾      超级财报周推动美股强劲反弹,纳指、标普全周累涨4%、2.7%,均创五个月来最大周涨幅,结束四周连跌。科技股表现出色,周五谷歌飙升10%,创历史新高及九年来最大涨幅,英伟达涨超6%,全周涨15%,创11个月来最大周涨幅。特斯拉尽管财报表现不佳,但全周仍涨超10%。中概股指连续五日上涨,全周涨近9%。      周五美国3月PCE数据公布后,美元指数一度刷新两周新低,但随后反弹

  • 5 想象设计玩Genbox AI让游戏创作变得比以往更有趣、更容易

    你有没有考虑过创建自己的电子游戏?如果你是一个铁杆玩家,你很有可能做到。考虑到你在游戏世界中的丰富经验和时间,这是很自然的。 作为一名玩家同伴,你处于独特的位置,能够理解是什么让游戏真正令人惊叹和愉快。 幸运的是,我们偶然发现了一个平台,即使你不是一个编码向导,它也可以帮助你实现游戏愿景。进入GenBox AI,我们为其指定了三个主要单词来描述的解决方案:想象、设计和游戏。 除此之外,它还基于区块

  • 6 索拉纳面临不断上升的MEV机器人活动:你应该担心吗?

    索拉纳网络上的MEV机器人数量大幅增长。对NFT的兴趣下降,而整体情绪下降。 在过去的几个月里,索拉纳[SOL]网络的活动激增。这种活动的激增,可以部分归因于网络上对模因币的整体兴趣。 MEV机器人接管 然而,这一活动的很大一部分是由MEV机器人驱动的。根据最新数据,索拉纳在过去两周流入验证器的MEV超过了以太坊。 MEV机器人是一种扫描区块链以寻找与交易订单相关的盈利机会的软件程序。它们可以利用

  • 7 符文Runes:比特币减半当天引爆链上热潮 Ordinals创始人Casey助推新预期

    由于对 Ordinals 创始人带来的新预期,比特币减半当天,“符文Runes”的短期热度迅速攀升。当天比特币链上异常繁忙,交易费暴涨,高额交易层出不穷,导致网络拥堵,Kuang工单日收入达到了历史最高的1亿美元。自减半以来,“符文Runes”已占比特币交易量的三分之二以上,并得到了主流平台如UniSat、OKX和MagicEden的支持。随着时间的推移,让我们简要了解一下符文市场目前的发展情况。

  • 8 以下是由Tron创始人领导的EIGEN顶级索赔人

    Spot On Chain分析显示,随着社区对分配公平性的担忧激增,EigenLayer第一季中EIGEN代币的最高索赔者。 Spot On Chain最近的分析详细了解了第一季EIGEN代币的分布,强调了特征层生态系统中的重要活动。 你为第一季收集了多少$EIGEN?以下是顶级索赔人:1@justinsuntron:359570$EIGEN2。0x4b25e4:2426294$EIGEN 3。

  • 9 火凤凰(Fotona)即将上线

    BSC链全新双涡轮通缩,LP跟卖分红协议、底池每天自动燃烧销毁24%,全新质押挖矿本利每天同出,缔造全网新秀,续写新一代的传奇。Fotona(火凤凰)寓意涅槃重生。火凤凰的羽毛燃烧着熊熊烈火,但它并不被烧毁,反而能够焕发出更加灿烂的光芒,象征着重生和变革,代表着从毁灭到重生的转变,寓意着希望和新的开始。也代表身份与地位。历代皇朝甚至民间百姓都认为凤凰是身份的象征,“凤冠”是皇后的专用之物,代表着至

  • 10 Meson Network:实现带宽自由流通的区块链网络

    1. 项目简介Meson Network是一个旨在通过区块链协议建立智能带宽市场的DePIN项目,旨在以分散的方式优化带宽使用,解决未充分利用的带宽、企业高成本、网络拥塞和集中化风险。简而言之,Meson Network通过长尾市场和共享经济的模式,汇聚全球不同地区其他人的闲置带宽,按一定规则就近分配给有数据传输需求的人使用,形成一个去中心化的带宽资源网络。项目特色包括:全球范围内超过10万个节点