文本到音乐和文本到声音的模型MAGNeT

45次阅读

共计 385 个字符，预计需要花费 1 分钟才能阅读完成。

MAGNeT 是 Meta 发布的一个文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。它是一个经过训练的掩蔽生成非自回归 Transformer，使用 32kHz 的 EnCodec 分词器，并配有 4 个以 50Hz 采样率的码本。与之前在掩蔽生成音频 Transformer 上的工作，如 SoundStorm 和 VampNet 不同，MAGNeT 不需要语义标记条件，模型级联或音频提示，而是使用单个非自回归 Transformer 实现完整的文本到音频转换。有网友在 HuggingFace 发布了 Demo，大家可以试用。