试了试Meta的最新语音生成器，逼真得有点毛骨悚然

2023-12-13 发布浏览407次点赞0次收藏0次

机器之能报道

编辑：吴昕

这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？

机器之能报道

编辑：吴昕

这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？

试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

作品出自一个非常酷的语音生成工具 Audiobox Maker，你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。

有了它，仅用几分钟的时间，机器之心也随意生成了关于五月天假唱热搜的对话：

试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

透过 Audiobox Maker ，即使是小白用户也可以设计、生成不同人物（比如小红帽、大灰狼和外婆）的声音文件，同时添加不同声效，通过拖曳、排列组合各种文件（就像搭乐高），自编自导一出故事。

我们使用 Audiobox Maker 制作关于五月天假唱对话的语音作品示例，生成了两个对话人物的音频，还有背景声效，通过拖曳不同模块进行编辑。

有学者说，2023 年是语音之年（ Year of Sound Waves ）。

确实，从电影、游戏、播客到有声读物，声音的魅力和地位可谓举重轻重。然而，制作高质量的音频却不是一件容易的事，特别是对无数业余爱好者来说。

为了改变现状，无论是 OpenAI、谷歌、微软、Meta 、亚马逊还是一众初创公司，都在语音生成方面投入了大量资金。

6 月，Meta 曾推出全新的语音生成 AI 模型—— VoiceBox，能从文本直接生成高质量语音，不需要任何语音样本作为训练数据。

由于当时对基于 AI 的深度伪造的担忧日益加剧，Meta 并未向公众开放 Voicebox。

意外的是，本周一，Meta 发布了一个新的交互式网站，支持大众免费体验「 Voicebox 的接班人」、最新的音频生成器 AudioBox。

Audiobox Maker 只是 AudioBox 的一个体验内容。

事实上，你可以将 Audiobox 看作一个汇聚了六个 AI 工具的「模型系列」，包括克隆声音、文本到声音、文本到音效（比如掌声、狗叫、汽车喇叭、雷声）、在指定地方添加音效或删除指定部分等。

机器之心也立刻体验了一把几个 AI 功能，非常有意思。不过，遗憾的是目前并不支持中文。

最让人印象深刻的工具—— 从文本直接生成各种音效。

虽然 Audiobox 建立在 Voicebox 框架之上，但它可以生成更多种类的声音，特别是不同环境的声效。

只需给模型一个文本提示即可，例如「一条流淌的河流和鸟儿的鸣叫」：

Meta 声称，与之前最先进的产品相比，Audiobox 将 FAD （Frechet Audio Distance 的缩写，FAD 值越小越好）降低了 50% ，在质量和保真度方面堪与真实音频相媲美。

换一个声效提示试试—— The sound of the brook accompanied the laughter of the young woman ，感觉后半段有点恐怖了：

试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

克隆自己的声音。

先录制一段自己的声音，想听听克隆声音朗读葡萄牙著名诗人卡蒙斯的诗的感觉，结果发现，目前并不支持葡萄牙语，只好更换为叶芝的诗歌 When you are old。

很快，就生成了两个音频供选择。说实话，本人很难分辨哪个更好，因为都很像。

Audiobox 使用了一种定制求解器，Meta 声称，这种求解器使生成过程比以前的模型快 25 倍以上，而不会损失性能。

试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

不想用克隆的声音？没问题，同样是朗读 When you are old ，你还可以直接通过文本提示，利用 AI 生成最适合的声音：
输入提示，an old english man with a deep yet soft voice. He speaks with a slightly flat tone and his emotions are enthusiastic. The audio is high quality and it sounds like it was recorded by the sea。

oldman,试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

值得注意的是，用户还可以结合语音输入与文本样式提示，生成任何环境（例如，海边）或任何情绪（例如，悲伤而缓慢地说话）下的语音。

Meta 声称，Audiobox 是第一个支持该双输入（声音样本和文本描述提示）的语音生成大模型，最大限度提高了每个用例结果的可控性。

比如，我们想让朗读 When you are old 的声音变得更成熟一些，想象背景里还有淅淅沥沥的雨声和远处的雷声（是不是更有意境？）

我们用自己的声音录制了样本，再加上文本提示：

A middle-aged person speaking with a relaxed, friendly voice. Background includes rain sound and distant thunder.

效果如下：

音频和文本提示双重控制生成,试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

Audiobox 还支持声音填充功能，根据文本描述将指定音频的一部分替换为新声音。

我们试着将刚才生成的一段女人笑声伴随河流声的部分音频（紫色部分）更换为一阵狗吠，还有沉重的脚步声。

效果还不错：

填充声效,试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

除了上述功能，用户还可擦除指定部分的音频。

必须说明的是，可能出于伦理安全方面的谨慎，系统约束过多。几乎每次输入都会碰到系统显示无法处理的情况，要修改甚至放弃原来的表述，才可能成功，因此很难顺利按照自己既定的脚本，完成音频生成。

与 Voicebox 相比，Audiobox 的生成质量更优。通过「结合使用语音输入和自然语言文本提示」生成语音和声音效果，最大限度提高结果的可控性。

另外，和 Voicebox 不同，所有这些音频生成、编辑等功能，都「建立在共享的自监督模型 Audiobox SSL 之上。」

换句话说，通过统一语音和音景的生成和编辑功能，Audiobox 进一步推进了音频的生成 AI 的进步。

在安全性上，使用 Audiobox 创建的任何音频都带有自动水印，可以准确地追溯到其来源。

该技术目前不能用于任何赚钱/商业目的，奇怪的是也不能被美国人口最多两个州的居民使用。但随着 AI 的快速发展，预计这种情况会改变，在不久的将来会有商业版本，即使不是来自 Meta，也会来自其他人。

如果你有兴趣，这里有传送门：
https://audiobox.metademolab.com/

作品出自一个非常酷的语音生成工具 Audiobox Maker，你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。

有了它，仅用几分钟的时间，机器之心也随意生成了关于五月天假唱热搜的对话：

试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

我们使用 Audiobox Maker 制作关于五月天假唱对话的语音作品示例，生成了两个对话人物的音频，还有背景声效，通过拖曳不同模块进行编辑。

有学者说，2023 年是语音之年（ Year of Sound Waves ）。

为了改变现状，无论是 OpenAI、谷歌、微软、Meta 、亚马逊还是一众初创公司，都在语音生成方面投入了大量资金。

6 月，Meta 曾推出全新的语音生成 AI 模型—— VoiceBox，能从文本直接生成高质量语音，不需要任何语音样本作为训练数据。

由于当时对基于 AI 的深度伪造的担忧日益加剧，Meta 并未向公众开放 Voicebox。

意外的是，本周一，Meta 发布了一个新的交互式网站，支持大众免费体验「 Voicebox 的接班人」、最新的音频生成器 AudioBox。

Audiobox Maker 只是 AudioBox 的一个体验内容。

机器之心也立刻体验了一把几个 AI 功能，非常有意思。不过，遗憾的是目前并不支持中文。

最让人印象深刻的工具—— 从文本直接生成各种音效。

虽然 Audiobox 建立在 Voicebox 框架之上，但它可以生成更多种类的声音，特别是不同环境的声效。

只需给模型一个文本提示即可，例如「一条流淌的河流和鸟儿的鸣叫」：

换一个声效提示试试—— The sound of the brook accompanied the laughter of the young woman ，感觉后半段有点恐怖了：

试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

克隆自己的声音。
先录制一段自己的声音，想听听克隆声音朗读葡萄牙著名诗人卡蒙斯的诗的感觉，结果发现，目前并不支持葡萄牙语，只好更换为叶芝的诗歌 When you are old。

很快，就生成了两个音频供选择。说实话，本人很难分辨哪个更好，因为都很像。

Audiobox 使用了一种定制求解器，Meta 声称，这种求解器使生成过程比以前的模型快 25 倍以上，而不会损失性能。

试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

oldman,试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

值得注意的是，用户还可以结合语音输入与文本样式提示，生成任何环境（例如，海边）或任何情绪（例如，悲伤而缓慢地说话）下的语音。

Meta 声称，Audiobox 是第一个支持该双输入（声音样本和文本描述提示）的语音生成大模型，最大限度提高了每个用例结果的可控性。

比如，我们想让朗读 When you are old 的声音变得更成熟一些，想象背景里还有淅淅沥沥的雨声和远处的雷声（是不是更有意境？）

我们用自己的声音录制了样本，再加上文本提示：

A middle-aged person speaking with a relaxed, friendly voice. Background includes rain sound and distant thunder.

效果如下：

音频和文本提示双重控制生成,试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

Audiobox 还支持声音填充功能，根据文本描述将指定音频的一部分替换为新声音。

我们试着将刚才生成的一段女人笑声伴随河流声的部分音频（紫色部分）更换为一阵狗吠，还有沉重的脚步声。

效果还不错：

填充声效,试听地址：
https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

除了上述功能，用户还可擦除指定部分的音频。

与 Voicebox 相比，Audiobox 的生成质量更优。通过「结合使用语音输入和自然语言文本提示」生成语音和声音效果，最大限度提高结果的可控性。

另外，和 Voicebox 不同，所有这些音频生成、编辑等功能，都「建立在共享的自监督模型 Audiobox SSL 之上。」

换句话说，通过统一语音和音景的生成和编辑功能，Audiobox 进一步推进了音频的生成 AI 的进步。

在安全性上，使用 Audiobox 创建的任何音频都带有自动水印，可以准确地追溯到其来源。

如果你有兴趣，这里有传送门：
https://audiobox.metademolab.com/

谷歌微软亚马逊性能体验 AI 产业 OpenAI 框架大模型

声明：本文转载自机器之心，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。