共计 980 个字符,预计需要花费 3 分钟才能阅读完成。
复旦大学计算机学院团队推出了一个基于大规模语言模型(LLM)的语音生成系统 SpeechGPT-Gen,该系统使用了一种称为 ” 信息链 ”(Chain-of-Information)的新方法,将语义信息和感知信息分离,从而提高了生成语音的质量和效率。具体来说,SpeechGPT-Gen 包含两个部分:一个基于 LLM 的自动回归模型用于语义建模,一个基于流匹配的非自动回归模型用于感知建模。在语义建模阶段,输入文本被转换成语义表示,用于捕捉文本的语义信息。在感知建模阶段,输入的语音被转换成完整的语音表示,同时利用了语义表示和语音表示之间的互补关系,从而提高了生成语音的感知质量。此外,作者还探索了在流匹配的优先分布中注入语义信息,这有助于提高其有效性。
项目主页:https://0nutation.github.io/SpeechGPT-Gen.github.io
GitHub 地址:https://github.com/0nutation/SpeechGPT
主要特点和实现方法如下:
特点:
- 信息解耦建模:SpeechGPT-Gen 采用链式信息生成 (Chain-of-Information Generation, CoIG) 方法,将语义信息和感知信息进行解耦建模,以提高语音生成的效率。
- 语义和感知建模:包含基于大语言模型的自回归模型进行语义建模,以及基于流匹配的非自回归模型进行感知建模,以实现高质量的语音合成。
- 注入语义信息:提出在流匹配的先验分布中注入语义信息,以提升感知建模的效率,生成更高质量的语音。
- 模型规模:模型参数达到 810 亿,在零样本文本到语音、零样本语音转换和语音到语音对话任务上表现出色。
实现方法:
- 使用 SpeechTokenizer 提取语义表示和感知表示。
- 利用预训练的大语言模型进行语义建模。
- 基于流匹配进行感知建模,提出显式链和隐式链两种方式。
- 在流匹配的先验分布中注入语义信息。
- 模型参数达到 810 亿规模,在零样本任务上表现优异。、
- 应用于文本到语音、语音转换和语音对话等多种任务。
实验结果表明,SpeechGPT-Gen 在零样本文本转语音、零样本语音转换和语音转语音对话等任务上取得了出色的性能。总之,本文提出了 SpeechGPT-Gen, 这是一个基于 LLM 的语音生成系统,通过分离语义和感知信息,实现了高质量的语音生成。该方法有望为语音生成领域带来新的突破。
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-26