文本到音乐和文本到声音的模型MAGNeT

45次阅读
没有评论

共计 385 个字符,预计需要花费 1 分钟才能阅读完成。

MAGNeT 是 Meta 发布的一个文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。它是一个经过训练的掩蔽生成非自回归 Transformer,使用 32kHz 的 EnCodec 分词器,并配有 4 个以 50Hz 采样率的码本。与之前在掩蔽生成音频 Transformer 上的工作,如 SoundStorm 和 VampNet 不同,MAGNeT 不需要语义标记条件,模型级联或音频提示,而是使用单个非自回归 Transformer 实现完整的文本到音频转换。有网友在 HuggingFace 发布了 Demo,大家可以试用。

GitHub 地址:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

Demo 地址:https://huggingface.co/spaces/fffiloni/MAGNet

文本到音乐和文本到声音的模型 MAGNeT

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-17发表,共计385字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码