语音生成系统SpeechGPT-Gen

48次阅读

共计 980 个字符，预计需要花费 3 分钟才能阅读完成。

复旦大学计算机学院团队推出了一个基于大规模语言模型（LLM）的语音生成系统 SpeechGPT-Gen，该系统使用了一种称为 ” 信息链 ”（Chain-of-Information）的新方法，将语义信息和感知信息分离，从而提高了生成语音的质量和效率。具体来说，SpeechGPT-Gen 包含两个部分：一个基于 LLM 的自动回归模型用于语义建模，一个基于流匹配的非自动回归模型用于感知建模。在语义建模阶段，输入文本被转换成语义表示，用于捕捉文本的语义信息。在感知建模阶段，输入的语音被转换成完整的语音表示，同时利用了语义表示和语音表示之间的互补关系，从而提高了生成语音的感知质量。此外，作者还探索了在流匹配的优先分布中注入语义信息，这有助于提高其有效性。

项目主页：https://0nutation.github.io/SpeechGPT-Gen.github.io
GitHub 地址：https://github.com/0nutation/SpeechGPT

主要特点和实现方法如下：

特点：

信息解耦建模：SpeechGPT-Gen 采用链式信息生成 (Chain-of-Information Generation, CoIG) 方法，将语义信息和感知信息进行解耦建模，以提高语音生成的效率。
语义和感知建模：包含基于大语言模型的自回归模型进行语义建模，以及基于流匹配的非自回归模型进行感知建模，以实现高质量的语音合成。
注入语义信息：提出在流匹配的先验分布中注入语义信息，以提升感知建模的效率，生成更高质量的语音。
模型规模：模型参数达到 810 亿，在零样本文本到语音、零样本语音转换和语音到语音对话任务上表现出色。

实现方法：