多功能即时语音克隆技术OpenVoice

浏览：159次阅读

共计 536 个字符，预计需要花费 2 分钟才能阅读完成。

OpenVoice 是一种多功能而高效的即时语音克隆技术，只需要用户的短音频片段，OpenVoice 就能复制用户的声音，并能生成多种语言的语音。不仅如此，OpenVoice 除了可以复制用户的音色外，还能对音色样式进行细粒度控制，包括情绪、口音、节奏、暂停和语调。令人惊讶的是，OpenVoice 能实现零样本跨语言语音克隆，即使面对训练数据集中未包括的语言。更值得一提的是，OpenVoice 在计算上极其高效，其成本只有商业开放的 API 的几十分之一，但在性能上却要优于它们。

主要功能：

准确的音色克隆：OpenVoice 能够精确地克隆参考音色，并在多种语言和口音中生成语音。

灵活的声音风格控制：用户可以控制生成语音的情感和口音，以及其他风格参数，如节奏、停顿和语调。

零样本跨语言声音克隆：OpenVoice 可以在未包含在大规模多语言训练集中的任何语言之间进行声音克隆。

网站：http://research.myshell.ai/open-voice
GitHub：http://github.com/myshell-ai/OpenVoice
在线演示：http://lepton.ai/playground/openvoice
创建自己的语音机器人：http://myshell.ai

正文完

关注公众号获取最新教程

发表至：无分类

2024-01-02

0

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

视频到视频（V2V）转换框架FlowVid