开源的文本到语音系统WhisperSpeech

60次阅读

共计 590 个字符，预计需要花费 2 分钟才能阅读完成。

WhisperSpeech 是通过对 OpenAI 的 Whisper 语音识别模型反向工程来实现的。通过这种反转过程，WhisperSpeech 能够接收文本输入，并利用修改后的 Whisper 模型生成听起来自然的语音输出。不过目前仅支持英语与波兰语。

GitHub 地址：https://github.com/collabora/WhisperSpeech
Demo 地址：https://replicate.com/lucataco/whisperspeech-small
Colab 地址：https://colab.research.google.com/drive/1xxGlTbwBmaY6GKA24strRixTXGBOlyiw

WhisperSpeech 项目路线图：

声学标记提取：改进声学标记的提取过程。
语义标记提取：使用 Whisper 模型生成和量化语义标记。
S->A 模型转换：开发将语义标记转换为声学标记的模型。
T->S 模型转换：实现从文本标记到语义标记的转换。
提升 EnCodec 语音质量：优化 EnCodec 模型以提高语音合成质量。
短句推理优化：改善系统处理短句的能力。
扩展情感语音数据集：收集更大的情感语音数据。
文档化 LibriLight 数据集：详细记录 HuggingFace 上的数据集。
多语言语音收集：聚集社区资源，收集多种语言的语音。
训练多语言模型：开发支持多语言的文本到语音模型。

正文完

关注公众号获取最新教程

发表至：无分类

2024-01-20

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

针对SVD的Controlnet的lineart模型，更加精确的控制视频生成