语音生成系统SpeechGPT-Gen

48次阅读
没有评论

共计 980 个字符,预计需要花费 3 分钟才能阅读完成。

复旦大学计算机学院团队推出了一个基于大规模语言模型(LLM)的语音生成系统 SpeechGPT-Gen,该系统使用了一种称为 ” 信息链 ”(Chain-of-Information)的新方法,将语义信息和感知信息分离,从而提高了生成语音的质量和效率。具体来说,SpeechGPT-Gen 包含两个部分:一个基于 LLM 的自动回归模型用于语义建模,一个基于流匹配的非自动回归模型用于感知建模。在语义建模阶段,输入文本被转换成语义表示,用于捕捉文本的语义信息。在感知建模阶段,输入的语音被转换成完整的语音表示,同时利用了语义表示和语音表示之间的互补关系,从而提高了生成语音的感知质量。此外,作者还探索了在流匹配的优先分布中注入语义信息,这有助于提高其有效性。

项目主页:https://0nutation.github.io/SpeechGPT-Gen.github.io

GitHub 地址:https://github.com/0nutation/SpeechGPT

语音生成系统 SpeechGPT-Gen

主要特点和实现方法如下:

特点:

  • 信息解耦建模:SpeechGPT-Gen 采用链式信息生成 (Chain-of-Information Generation, CoIG) 方法,将语义信息和感知信息进行解耦建模,以提高语音生成的效率。
  • 语义和感知建模:包含基于大语言模型的自回归模型进行语义建模,以及基于流匹配的非自回归模型进行感知建模,以实现高质量的语音合成。
  • 注入语义信息:提出在流匹配的先验分布中注入语义信息,以提升感知建模的效率,生成更高质量的语音。
  • 模型规模:模型参数达到 810 亿,在零样本文本到语音、零样本语音转换和语音到语音对话任务上表现出色。

实现方法:

  1. 使用 SpeechTokenizer 提取语义表示和感知表示。
  2. 利用预训练的大语言模型进行语义建模。
  3. 基于流匹配进行感知建模,提出显式链和隐式链两种方式。
  4. 在流匹配的先验分布中注入语义信息。
  5. 模型参数达到 810 亿规模,在零样本任务上表现优异。、
  6. 应用于文本到语音、语音转换和语音对话等多种任务。

实验结果表明,SpeechGPT-Gen 在零样本文本转语音、零样本语音转换和语音转语音对话等任务上取得了出色的性能。总之,本文提出了 SpeechGPT-Gen, 这是一个基于 LLM 的语音生成系统,通过分离语义和感知信息,实现了高质量的语音生成。该方法有望为语音生成领域带来新的突破。

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-26发表,共计980字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码