你也可以成为音乐家！Stability AI推出AI音乐AI工具「Stable Audio」，输入提示词可生成最长 90 秒音频

212次阅读

共计 1073 个字符，预计需要花费 3 分钟才能阅读完成。

Stability AI 之前已经推出了文字生成图像模型 Stable Diffusion、大语言模型StableLM，官方又在本周推出了文字生成音乐模型 Stable Audio，可以基于用户输入的文本内容，自动生成音乐或者音频。与之前谷歌的 MusicLM 与 Meta 的音乐生成模型MusicGen 相似，今天就一起来看看吧！

官网地址：https://stableaudio.com

Stable Audio

Stable Audio 是由 Stability AI 旗下生成式声音研究实验室 Harmonai 开发，利用由 AudioSparx 所提供的 80 万个音频文件组成的数据集进行训练，涵盖音乐、音效、各种乐器，以及相对应的文本元数据等，总长超过 1.9 万个小时。Stability AI 表示一般的声音扩散模型通常是在较长音频文件中随机裁剪的声音区块进行训练，可能导致所生成的音乐缺乏头尾，但 Stable Audio 架构同时基于文字，以及音频文件的持续及开始时间，而让该模型得以控制所生成声音的内容与长度。

Stable Audio 模型利用最新的扩散取样技术，在英伟达 A100 GPU 上以 44.1 kHz 的取样速度，不到 1 秒就能渲染 95 秒的立体声。Stable Audio 目前提供免费与 Pro 付费版，免费版每月可免费生成 20 次、最长 45 秒的声音或音乐，而若每月支付 12 美元，则可生成 500 次，最长 90 秒的音频。官方之后也会将 Stable Audio 进行开源。（官方说明）