音频生成模型EVA-GAN

79次阅读

没有评论

共计 895 个字符，预计需要花费 3 分钟才能阅读完成。

音频生成模型 EVA-GAN，它是一种基于可扩展生成对抗网络架构的音频生成技术。EVA-GAN 旨在通过扩大模型规模、增强结构和采用更大规模的数据集来显著改善音频生成的质量，特别是针对音乐和歌唱合成中高保真度（44.1kHz）音频的制作。

论文地址：https://arxiv.org/abs/2402.00892
Demo 地址：https://double-blind-eva-gan.cc

主要功能：

生成高质量的音频波形，包括音乐和人声。
处理和生成多种类型的音频，如唱歌、说话、乐器声音等。

主要特点：

使用了大规模的 36,000 小时 44.1kHz 音频数据集，这是目前神经编码器中使用的最大模型和数据集。
引入了一种新颖的上下文感知模块（CAM），在几乎不增加计算负担的情况下显著提升了模型性能。
采用了一种创新的训练流程，包括更长的上下文窗口、损失平衡器、梯度检查点和改进的激活函数，以提高训练稳定性、减少内存使用，并最小化手动超参数调整的需求。
构建了一个新的人类参与循环（Human-In-The-Loop）的 SMOS（Similarity Mean Option Score）评估工具包，用于监控和确保生成音频与人类主观感知的一致性。

工作原理： EVA-GAN 基于 GAN 架构，包括一个生成器和一个判别器。生成器的任务是将 Mel 频谱图转换为未经处理的音频波形，而判别器则评估生成的音频与真实音频之间的差异。EVA-GAN 通过扩大模型规模、增加上下文窗口、引入 CAM 模块以及优化训练流程来提升性能。此外，EVA-GAN 还采用了 TensorFloat-32 精度训练，以提高训练速度并保持稳定性。

具体应用场景：