Fish Agent:由 FishAudio 推出的一款无需编解码的语音到语音模型,集成了 ASR 和 TTS 功能

浏览:303次阅读
没有评论

共计 698 个字符,预计需要花费 2 分钟才能阅读完成。

Fish Agent 是由 FishAudio 推出的一款无需编解码的语音到语音模型,它集成了 ASR 和 TTS 功能,实现了真正的端到端语音处理,类似于 ChatGPT 的高级语音模式,该模型基于 70 万小时的多语言音频内容训练而成。

目前正处于测试阶段,官方已经释出一款模型 Fish Agent V0.1 3B,该模型是基于 Qwen-2.5-3B-Instruct 继续预训练的版本,使用了 2000 亿语音和文本标记。

Fish Agent: 由 FishAudio 推出的一款无需编解码的语音到语音模型,集成了 ASR 和 TTS 功能

它最大的特点在于:

  • 端到端语音处理: 集成了语音识别(ASR)和语音合成(TTS)功能,实现了一站式语音处理,就像 ChatGPT 在文本领域的地位一样。
  • 无需语义标记: 采用独特的架构,摆脱了传统模型对语义编码器 / 解码器的依赖,简化了模型结构。
  • 海量数据训练: 基于 70 万小时的多语言音频数据进行训练,覆盖英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言。

Fish Agent 能做什么?

  • 语音转换: 将一种语言的语音实时转换为另一种语言,实现跨语言交流。
  • 语音编辑: 对语音进行修改、剪辑和拼接,满足个性化需求。
  • 语音合成: 将文本转换为自然流畅的语音,广泛应用于语音助手、有声书等领域。

技术亮点

  • 基于 Qwen-2.5-3B-Instruct: 模型在强大的基础模型上进行进一步训练,性能更优。
  • 海量数据: 70 万小时的训练数据保证了模型的鲁棒性和泛化能力。
  • 多语言支持: 覆盖全球主要语言,满足多样化的需求。
正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-11-04发表,共计698字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。