共计 590 个字符,预计需要花费 2 分钟才能阅读完成。
WhisperSpeech 是通过对 OpenAI 的 Whisper 语音识别模型反向工程来实现的。通过这种反转过程,WhisperSpeech 能够接收文本输入,并利用修改后的 Whisper 模型生成听起来自然的语音输出。不过目前仅支持英语与波兰语。
GitHub 地址:https://github.com/collabora/WhisperSpeech
Demo 地址:https://replicate.com/lucataco/whisperspeech-small
Colab 地址:https://colab.research.google.com/drive/1xxGlTbwBmaY6GKA24strRixTXGBOlyiw
WhisperSpeech 项目路线图:
- 声学标记提取:改进声学标记的提取过程。
- 语义标记提取:使用 Whisper 模型生成和量化语义标记。
- S->A 模型转换:开发将语义标记转换为声学标记的模型。
- T->S 模型转换:实现从文本标记到语义标记的转换。
- 提升 EnCodec 语音质量:优化 EnCodec 模型以提高语音合成质量。
- 短句推理优化:改善系统处理短句的能力。
- 扩展情感语音数据集:收集更大的情感语音数据。
- 文档化 LibriLight 数据集:详细记录 HuggingFace 上的数据集。
- 多语言语音收集:聚集社区资源,收集多种语言的语音。
- 训练多语言模型:开发支持多语言的文本到语音模型。
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-20