AI 音乐,会不会诞生下一个「抖音」?

时间:2024-09-24 编辑: 浏览:(464)

文章来源:极客公园

图片来源:由无界AI生成

音乐创作从此触手可及。

作者 | 连冉编辑 | 郑玄

AI 音乐最近火到发烫。首先是三月下旬,美国 AI 初创公司 Suno 发布 V3 音乐生成模型,该模型能够在几秒钟内根据输入的提示词生成两分钟的高质量音频,惊艳的效果让行业相信 AI 音乐已经迎来了自己的「ChatGPT 时刻」。

紧接着,一个月后,国内的昆仑万维宣布推出「天工SkyMusic」音乐生成大模型,其评分超越 Suno V3,成为 AI 音乐生成模型最新 SOTA(State of the Art,指当前技术在本领域技术指标全球第一)。

这引起了极客公园的好奇。客观来说,今天中美在 AI 大模型的基础研发上还存在着一定差距。即使细分领域的垂直模型,如此自信地宣称全球领先的团队并不多见。

此外,音乐作为多模态领域中的重要组成部分,有着不菲的产业价值。全球录制音乐市场一年的总收入近 300 亿美元,而相关的演唱会、BGM、KTV 和线上的短视频、K 歌平台等更是每年数千亿美元的市场规模。AI 的介入必然带来生产侧和消费侧的全面革新,其潜在影响不会亚于数字音乐和流媒体的兴起。

因此在 4 月 17 日「天工SkyMusic」正式上线后,我们第一时间下载并体验了这款软件。以下是我们的体验感受,以及对 AI 音乐未来发展的一点想法。

01/「天工SkyMusic」: 一段歌词,几秒生成 三首不同风格的歌曲

从产品设计角度来看,「天工SkyMusic」与「Suno V3」在多个方面相似,但在一些关键细节上还是有明显的不同。

使用「天工SkyMusic」生成音乐,需要输入歌名、歌词,同时可以通过添加段落信息,比如「主歌」、「副歌」、「前奏」等进行微调——这些都与 Suno 的操作相似。

Suno 界面天工SkyMusic 界面

两者最大的不同在于:Suno 要求用户输入歌曲风格,如流行、爵士或说唱;而「天工SkyMusic」则允许选择参考曲目,可以来自其他用户上传过的歌曲,也支持自己上传。

这个功能非常有用。一方面,相比于泛泛的「风格」,「曲目」提供了更精确的定向,这更有助于生成自己想要的音乐。

从实际使用体验来看,如果缺少专业乐理训练,普通用户很难精准描述歌曲风格——想象一下,该用什么语言描述《夜的第七章》?因此,像「天工SkyMusic」这样能够在浏览并倾听原音乐时找到与自己歌词契合的风格,这比使用自然语言描述能够更好地表达音乐需求,也更契合普通用户的音乐创作的场景。

输入歌词、歌名和参考曲目以后,就可以直接生成音乐。「天工SkyMusic」会一次性生成三首风格、唱腔略有不同的歌曲——这是一个很实用的产品设计。不论是「Suno V3」还是「天工SkyMusic」,尽管今天 AI 音乐虽然已经能生成出一定水准的音乐,但稳定性还有待提升,三首里往往只有一首还算不错,而想要得到更好的音乐,除了需要做好歌词分段等微调,更需要反复尝试。

除了写好歌词生成歌曲以外,「天工SkyMusic」也支持 AI 写词。如上所示,上面这首《夏天的风》就是我们用「AI 写词」和「生成歌曲」完成创作的歌曲。这首歌的旋律还不错,但由于没有给歌词分段,整首歌听下来缺少了一点音调变化。

我尝试在苏轼的《水调歌头》里加上分段,这次生成的歌曲就有了明显的情感变化,尤其是唱到「人有悲欢离合,月有阴晴圆缺」这样的副歌高潮段落时,感染力十足。

如果生成了满意的歌曲,用户还可以选择「投稿」发布到「天工SkyMusic」平台,以及支持分享到其他社交媒体平台。在首页,我听了一些点赞比较多的热门生成音乐,其中不乏一些质量上乘的作品,乍一听几乎无法辨别其为 AI 生成——当然仔细分辨的话,还是能在一些细节处理上看到与专业作品的差距。

事实上,许多专业音乐人对「天工SkyMusic」也有不低的评价。例如,B 站 UP 主 @Metalion,一名职业音乐人,他尝试了用自己的旧歌词生成,并试听了主页其他人发布的热门 AI 歌曲,其中有好几首都给出了「还不错」、「像是一首完整的歌曲」这种不低的评价。

B 站 UP 主@Metalion 发布的视频 | 来源:B 站截图

整体体验下来,我感觉「天工SkyMusic」的音乐生成能力至少在音乐初学者以上,但生成速度远不是人类可比,而且大量的音乐作品中不乏一些相对完整甚至局部惊艳的优秀作品。当然,目前 AI 音乐模型的能力还无法实现整首歌曲从头到尾都保持稳定品质,也无法像真正的音乐人那样细致打磨作品。

然而,就目前的技术水平而言,「天工SkyMusic」已是一款能为用户带来实际价值的优秀产品。通过降低音乐创作门槛,如「模仿曲目」、「一次生成三首」和「选择发布」这些细节设计,大模型已经可以让普通人也能够轻松享受创造音乐、分享音乐的快乐,人人都能以歌明志。

而随着大模型继续迭代,产品和功能继续丰富,未来一两年,AI 音乐还有更多的可能性。

02/AI 音乐,会走向何方

谈完对产品的体验,最后我们来聊聊基于这次体验,我们可以看到的一些对 AI 音乐行业未来发展的观察。

在「天工 3.0」和「天工SkyMusic」的媒体沟通会上,昆仑万维董事长兼 CEO 方汉在接受媒体采访时说,他认为 AI 音乐创作工具未来会有两个分化:面向 PGC 和面向小白的 UGC 用户。UGC 基本上是一键生成,方便为主;PGC 就相对复杂,「天工SkyMusic」也会在后续加入曲调调整等更专业的音乐工具。

「天工SkyMusic」这样的产品,今天对 UGC 和 PGC 而言都有一定的价值,并在可预见的未来,技术会向两个不同的方向持续迭代。

对于普通 UGC 用户,AI 音乐生成主要提供的还是娱乐价值。音乐创作是情感表达的一种形式,即使是非专业人士也有创作的需求。以往,技术门槛如词曲创作和音乐理论是主要障碍,而 AI 技术的引入,相当于为他们提供了一个强大的「音乐创作外骨骼」,使得任何人都能创作出心中所想的音乐并通过社交媒体进行分享。

当然,当前 AI 音乐平台操作依然复杂,用户需手动进行歌词分段和微调,且生成的音质不够稳定。而随着技术的持续迭代,这些问题相信很快就会得到解决。正如微博和抖音在文章和视频创作领域所引发的革命一样,一个去中心化的音乐创作平台可能将彻底改变人们的音乐创作和消费方式。

对于专业人士的 PGC 用户而言,尽管今天的 AI 音乐工具尚不能完全替代人类创作者,但已经开始成为一个极具价值的辅助工具。

首先是创意激发。目前 AI 音乐大模型创作稳定性还不够,但是速度快,对于陷入瓶颈的创作者,AI 可以成为一个很好的创意启发工具。方汉也列举了一个技术团队与专业创作者沟通后的场景,他们认为「天工SkyMusic」有一个特别有价值的地方:就是跨区域风格灵感激发。例如,中国音乐人通常对非洲和拉美音乐不甚了解,但通过使用「天工SkyMusic」,他们可以轻松探索并融合这些异域文化的曲调,从而在创作中获得新的灵感。

还有一个很有价值的场景在于小样。在很多商务创作的沟通场合,尤其是一些音乐人和非音乐人的沟通(比如做广告 BGM 时,编曲和广告主沟通),很大的麻烦在于如何对齐双方对作品方向的理解。而有了 AI 之后,可以很容易地生成一个相对精准地小样儿,这能节省大量的沟通时间以及降低后续返工的风险。

从实用性的角度来看,今天需要用到音乐的行业非常多,比较典型的就是短视频、影视和游戏制作,而传统音乐创作不仅成本高昂还费时费力,把 AI 引入到这些行业的音乐生产流程,任何效率的提升都有可能带来巨大的产业价值。

在内容创作领域,谁能最快适应技术变革,谁就可能获得最大的利益,这一点在短视频领域已经有过验证。随着手机摄像头、5G、以及视频剪辑 APP 的崛起,视频拍摄制作门槛不断降低,最终伴随着抖音的全球走红,短视频赛道全面崛起,拉开一场新时代的大幕。

而今天,在 AI 音乐乃至所有 AIGC 平台上,历史可能再次重演。

最新 更多 >
  • 1 BTC和ETH高位震荡,为何山寨币“转熊”?

    要点:过去几个月,SOL、AVAX、APT、SUI等出现了40%-70%的回调,打压了山寨币市场情绪,而BTC和ETH仅从年度高点下跌了15%左右。Markus Thielen指出,风投基金面临出售代币的压力,以实现过去几年投资的利润。Anagram合伙人David Shuttleworth表示,加密市场缺乏资金流入“对即将大量解锁的代币、新发行代币和空投计划产生了特别不利的影响”。加密市场在经历

  • 2 Web3嘉年华丨专访Rouse Pro全球大使Nicholas

    2024年6月22—23日, 由W2140组委会与马来西亚政府联合支持的WEB3嘉年华在吉隆坡举办,在W2140吉隆坡Web3嘉年华的项目评选环节上,经过激烈角逐,Rouse Pro凭借极具创新的商业模式,以及DeFi方面的深厚资源积累和卓越的产品商业化能力,荣获本次大赛“创新先锋奖”。会议期间,Rouse Pro全球大使Nicholas接受了专题采访。以下是专访实录:Q1.Rouse Pro的1

  • 3 MoonBag在顶级加密货币预售中大获全胜,在接近协议和渲染持有者Jostle时达到290万美元

    有没有想过加密货币需要什么才能流行起来?在这个仍然相对快节奏的数字货币世界里,它不仅仅是与技术打交道。它关乎炒作、预期、策略,还有一点点运气!随着加密货币市场的升温,埃隆·马斯克发推特后,新硬币的涨跌速度快于你最喜欢的模因硬币的价值。 MoonBag现已成为顶级加密货币预售商。当像Near Protocol和Render这样的大玩家忙于炫耀他们严肃的技术术语时,MoonBag厚脸皮的猴子正带着它

  • 4 Uquid:拉美地区48.78%的购物者选择TRC20-USDT支付

    Web3购物平台Uquid近日在社交媒体表示,拉美地区有高达48.78%的Uquid用户使用TRC20-USDT进行购物,这一数据凸显了该地区用户对TRC20-USDT日益显著的需求。Uquid指出,波场网络以高吞吐量、可扩展性和低交易费用而闻名,其每秒可处理多达2,000笔交易(TPS),确保了快速高效的交易。此外,低廉的交易费用使得波场网络成为数字交易的高性价比解决方案,这对拉丁美洲和加勒比海

  • 5 拨云终见日 这是最好的一个加密周期

    撰文:Luyao李阳请我写篇文章,聊聊我对这个周期的看法。因为我是他所认识的人里,为数不多看好这个周期的人。这让我觉得很奇怪,有什么理由不看好呢?这很像是种了果树,根在长,枝在长,叶在长,只是还没结果实而已。如果你只盯着果实,那将会是漫长的痛苦。币圈大多是投资者,很容易陷入这种没有果实的悲伤里。我觉得大可不必,生长是需要时间的,连农民都知道果树不是一天长成的,更何况我们今天种下的是一些从未有过的新

  • 6 2024年推出白标加密交易所的案例

    2024年推出白标加密交易所的案例 数字资产行业在2024年激增,为投资者和企业创造了无与伦比的机会。加密货币市场正在成熟,机构兴趣的增加和技术进步推动了可扩展性和用户采用率的提高。市场信心创历史新高,为推出或扩大加密货币交易所创造了理想的环境。 这些发展为2025年的异常预测奠定了基础。随着数字资产市场的持续扩张,今年是推出加密货币交易所的理想时机。在这篇文章中,我们将探讨为什么在2024年推出

  • 7 “几乎没有人看到抛物线式的反弹”——交易员称被忽视的比特币指标在修正中翻绿

    一位密切关注的加密货币分析师表示,尽管周一比特币(BTC)指标跌破60000美元,但其中一个指标仍呈绿色闪烁。 匿名分析师TechDev告诉他在社交媒体平台X上的460100名粉丝,一个关键指标表明比特币可能很快就会出现抛物线。 “比特币历史上只有一次两周的高斯通道翻绿。价格在之前的高点盘整,标志着几乎没有人看到抛物线移动的中点。” 来源:TechDev/X 高斯通道是动量指标,可用于识别价格的

  • 8 比特币恢复到60000美元以上-最新加密货币新闻

    比特币(BTC)在过去24小时内跌破59000美元大关后反弹,重新站稳脚跟,超过60000美元的重要心理阈值。著名的链上分析师Willy Woo对最近的价格波动发表了看法,他警告说,尽管努力遏制市场的过度杠杆,但下跌可能还没有完全结束。 内容隐藏1是什么导致比特币价格下跌?2短期复苏可能吗?投资者的3个关键收获4个结论 是什么导致比特币价格下跌? 比特币价值的大幅下跌在很大程度上

  • 9 BTC击穿6万美元 一文梳理门头沟事件核心信息

    昨日,门头沟事件的新进展,直接让BTC击穿了6万美元,不少新晋加密玩家很恐慌,这到底是什么一回事?我们先来简单介绍下门头沟事件。2014年2月,占据当时BTC交易量约70%的交易平台门头沟(Mt.Gox)停止运营,没多久,它宣称在黑客攻击中被盗了约85万枚BTC。包含门头沟平台的10万枚BTC和用户的75万枚BTC。彼时,BTC约为600美元。85万枚BTC约为5.1亿美元。后来,法院判定门头沟要

  • 10 本轮牛市与此前的牛市相比有何不同?

    作者:David Canellis,Blockworks;编译:白水,如果你相信巨大的分形能量,那么它在接下来的几个月将完全决定比特币的价格。据我们所知,3 月份比特币创下近 73,740 美元的历史新高,是当前周期的顶峰。这将意味着牛市已经结束。比特币和以太坊今天的交易价格下跌了 5%——几乎导致除了稳定币之外的所有其他货币都出现亏损——这肯定无助于提振市场情绪。但市场的问题在于,你永远不知道它