共计 1073 个字符,预计需要花费 3 分钟才能阅读完成。
Stability AI 之前已经推出了文字生成图像模型 Stable Diffusion、大语言模型StableLM,官方又在本周推出了文字生成音乐模型 Stable Audio,可以基于用户输入的文本内容,自动生成音乐或者音频。与之前谷歌的 MusicLM 与 Meta 的音乐生成模型MusicGen 相似,今天就一起来看看吧!
Stable Audio
Stable Audio 是由 Stability AI 旗下生成式声音研究实验室 Harmonai 开发,利用由 AudioSparx 所提供的 80 万个音频文件组成的数据集进行训练,涵盖音乐、音效、各种乐器,以及相对应的文本元数据等,总长超过 1.9 万个小时。Stability AI 表示一般的声音扩散模型通常是在较长音频文件中随机裁剪的声音区块进行训练,可能导致所生成的音乐缺乏头尾,但 Stable Audio 架构同时基于文字,以及音频文件的持续及开始时间,而让该模型得以控制所生成声音的内容与长度。
Stable Audio 模型利用最新的扩散取样技术,在英伟达 A100 GPU 上以 44.1 kHz 的取样速度,不到 1 秒就能渲染 95 秒的立体声。Stable Audio 目前提供免费与 Pro 付费版,免费版每月可免费生成 20 次、最长 45 秒的声音或音乐,而若每月支付 12 美元,则可生成 500 次,最长 90 秒的音频。官方之后也会将 Stable Audio 进行开源。(官方说明)
如何使用 Stable Audio?
1、进入网站后,点击【Try it out】进行注册登录,必须登录才可以使用
2、可以使用邮箱进行注册,也可以使用谷歌账号进行登录
👇勾选官方服务条款,即可进入生成页面
3、官方的生成页面非常简单,输入提示词即可生成音频,目前免费用户最长可以生成 45 秒钟音频
👇比如小编就以“west coast, 90s, hip hop(西海岸,90 年代,嘻哈)”为关键词生成了一段 45 秒的嘻哈音乐
4、官方也非常贴心地为大家准备了用户教程,教大家如何书写提示词
👇针对付费用户与免费用户的区别,官方也给出了说明;对于生成的音频用途官方也有说明
结语
该产品刚刚上线,因为流量过大的原因,目前服务不是很稳定,大家还可以等待后续官方开源,那样我们就可以直接在本地电脑进行音频生成。
