开源的文本到语音系统WhisperSpeech

35次阅读
没有评论

共计 590 个字符,预计需要花费 2 分钟才能阅读完成。

WhisperSpeech 是通过对 OpenAI 的 Whisper 语音识别模型反向工程来实现的。通过这种反转过程,WhisperSpeech 能够接收文本输入,并利用修改后的 Whisper 模型生成听起来自然的语音输出。不过目前仅支持英语与波兰语。

GitHub 地址:https://github.com/collabora/WhisperSpeech

Demo 地址:https://replicate.com/lucataco/whisperspeech-small

Colab 地址:https://colab.research.google.com/drive/1xxGlTbwBmaY6GKA24strRixTXGBOlyiw

开源的文本到语音系统 WhisperSpeech

WhisperSpeech 项目路线图:

  • 声学标记提取:改进声学标记的提取过程。
  • 语义标记提取:使用 Whisper 模型生成和量化语义标记。
  • S->A 模型转换:开发将语义标记转换为声学标记的模型。
  • T->S 模型转换:实现从文本标记到语义标记的转换。
  • 提升 EnCodec 语音质量:优化 EnCodec 模型以提高语音合成质量。
  • 短句推理优化:改善系统处理短句的能力。
  • 扩展情感语音数据集:收集更大的情感语音数据。
  • 文档化 LibriLight 数据集:详细记录 HuggingFace 上的数据集。
  • 多语言语音收集:聚集社区资源,收集多种语言的语音。
  • 训练多语言模型:开发支持多语言的文本到语音模型。
正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-20发表,共计590字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码