微软的人工智能语音克隆技术太好了，你无法使用它

时间：2024-09-21 编辑： 浏览：(823)

微软的研究团队推出了VALL-E 2，这是一种新的语音合成人工智能系统，能够用几秒钟的音频生成“人类级性能”的声音，这些声音与来源无法区分。

研究论文写道：“（VALL-E 2）是神经编解码语言模型的最新进展，标志着零样本文本到速度合成（TTS）的里程碑，首次实现了人类的奇偶性。”该系统建立在2023年初推出的前身VALL-E的基础上。神经编解码器语言模型将语音表示为代码序列。

该团队表示，VALL-E 2与其他语音克隆技术的区别在于其“重复感知采样”方法和采样技术之间的自适应切换。这些策略提高了一致性，并解决了传统生成声音中最常见的问题。

研究人员写道：“VALL-E 2能够始终如一地合成高质量的语音，即使是那些由于复杂或重复短语而传统上具有挑战性的句子。”他们指出，这项技术可以帮助失去说话能力的人生成语音。

然而，尽管它令人印象深刻，但该工具将不会向公众开放。

微软在其道德声明中表示：“目前，我们没有计划将VALL-E 2纳入产品中，也没有计划扩大对公众的访问。”微软指出，这些工具带来了风险，如未经同意的声音模仿，以及在骗局和其他犯罪活动中使用令人信服的人工智能声音。

研究团队强调，需要一种标准的方法来对人工智能世代进行数字标记，并认识到高精度检测人工智能生成的内容仍然是一个挑战。

他们写道：“如果该模型被推广到现实世界中看不见的说话者，它应该包括一个协议，以确保说话者批准使用他们的声音和一个合成的语音检测模型。”。

也就是说，与其他工具相比，VALL-E2的结果非常准确。在研究团队进行的一系列测试中，VALL-E2在生成语音的稳健性、自然度和相似性方面优于人类基准。

图片：Microsoft

VALL-E-2只需3秒的音频就可以实现这些结果。然而，研究小组指出，“使用10秒的语音样本可以获得更好的质量。”

微软并不是唯一一家在没有发布尖端人工智能模型的情况下展示这些模型的人工智能公司。Meta的Voicebox和OpenAI的Voice Engine是两个令人印象深刻的语音克隆器，它们也面临着类似的限制。

Meta AI发言人去年告诉Decrypt：“生成语音模型有很多令人兴奋的用例，但由于潜在的滥用风险，我们目前没有公开Voicebox模型或代码。”。

此外，OpenAI解释说，在推出合成语音模型之前，它正试图首先解决安全问题。

OpenAI在一篇官方博客文章中解释道：“根据我们对人工智能安全的态度和我们的自愿承诺，我们选择预览但目前不广泛发布这项技术。”。

这种对道德准则的呼吁正在整个人工智能社区传播，尤其是随着监管机构开始对生成性人工智能在我们日常生活中的影响表示担忧。

由Ryan Ozawa编辑。