多模态音乐理解和生成模型M2UGen,能够理解和生成各种音乐

132次阅读
没有评论

共计 1187 个字符,预计需要花费 3 分钟才能阅读完成。

由腾讯与新加坡国立大学开发的多模态音乐理解和生成模型 M2UGen 已经上架 GitHub,并在 Hugging Face 释出模型,M2UGen 能够理解各种音乐,包括风格、演奏乐器、表达的情绪情感等,并进行音乐问答,还能根据文本、图像、视频和音频生成各种音乐,同时对生成的音乐也能理解并根据文字描述对音乐进行编辑。M2UGen 使用了多种编码器,包括用于音乐理解的 MERT、用于图像理解的 ViT 和用于视频理解的 ViViT,以及作为音乐生成模型(音乐解码器)的 MusicGen/AudioLDM2 模型。此外,该模型还结合了适配器和 LLaMA 2 模型。

项目主页:https://crypto-code.github.io/M2UGen-Demo

GitHub 地址:https://github.com/shansongliu/M2UGen

Hugging Face 地址:https://huggingface.co/M2UGen

论文地址:https://arxiv.org/abs/2311.11255

Demo 地址:https://huggingface.co/spaces/M2UGen/M2UGen-Demo

多模态音乐理解和生成模型 M2UGen,能够理解和生成各种音乐

主要功能:

  • 音乐问答:M2UGen 能够理解不同类型的音乐,包括它们的风格、使用的乐器、表达的情绪和情感等。然后根据提出的问题,模型能够理解并回答与音乐相关的查询。
  • 文本到音乐生成:用户可以输入文本,模型会根据这些文本生成相应的音乐。
  • 图像到音乐生成:模型能够根据提供的图片内容生成匹配的音乐。
  • 视频到音乐生成:根据视频内容,模型能理解视频的主要内容,并生成相应的音乐。
  • 音乐编辑:用户可以对已生成的音乐进行编辑,例如改变乐器、调整节奏等,而且只需要通过文本描述即可。

工作原理:

1、多模态输入处理:M2UGen 能够处理多种类型的输入,包括文本、图像、视频和音频:它使用特定的编码器来理解不同的输入模态。例如,使用 MERT 模型处理音乐输入,ViT 模型处理图像输入,ViViT 模型处理视频输入。

2、音乐理解:利用 LLaMA 2 模型,M2UGen 能够理解音乐的各个方面,如风格、乐器使用和情感表达。它能够对音乐相关的问题进行回答,这涉及到对音乐内容的深入理解。

3、音乐生成:M2UGen 不仅能理解音乐,还能根据不同的输入生成音乐。它探索使用 AudioLDM 2 和 MusicGen 等模型来根据文本、图像或视频输入生成音乐。

4、数据集生成与训练:为了训练 M2UGen,开发者使用了 MU-LLaMA 和 MPT-7B 模型来生成大量的多模态音乐配对数据集。这些数据集帮助 M2UGen 学习如何从不同的输入中提取信息并生成相应的音乐。

系统硬件要求

对于训练,阶段 1 和 2 使用单个 32GB V100 GPU,而阶段 3 使用 2 个 32GB V100 GPU。对于推理,使用单个 32GB V100 GPU,加载模型检查点需要大约 49GB 的 CPU 内存。

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-04发表,共计1187字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。