共计 385 个字符,预计需要花费 1 分钟才能阅读完成。
MAGNeT 是 Meta 发布的一个文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。它是一个经过训练的掩蔽生成非自回归 Transformer,使用 32kHz 的 EnCodec 分词器,并配有 4 个以 50Hz 采样率的码本。与之前在掩蔽生成音频 Transformer 上的工作,如 SoundStorm 和 VampNet 不同,MAGNeT 不需要语义标记条件,模型级联或音频提示,而是使用单个非自回归 Transformer 实现完整的文本到音频转换。有网友在 HuggingFace 发布了 Demo,大家可以试用。
GitHub 地址:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-17