共计 698 个字符,预计需要花费 2 分钟才能阅读完成。
Fish Agent 是由 FishAudio 推出的一款无需编解码的语音到语音模型,它集成了 ASR 和 TTS 功能,实现了真正的端到端语音处理,类似于 ChatGPT 的高级语音模式,该模型基于 70 万小时的多语言音频内容训练而成。
- 模型:https://huggingface.co/fishaudio/fish-agent-v0.1-3b
- Demo:https://huggingface.co/spaces/fishaudio/fish-agent
目前正处于测试阶段,官方已经释出一款模型 Fish Agent V0.1 3B,该模型是基于 Qwen-2.5-3B-Instruct 继续预训练的版本,使用了 2000 亿语音和文本标记。

它最大的特点在于:
- 端到端语音处理: 集成了语音识别(ASR)和语音合成(TTS)功能,实现了一站式语音处理,就像 ChatGPT 在文本领域的地位一样。
- 无需语义标记: 采用独特的架构,摆脱了传统模型对语义编码器 / 解码器的依赖,简化了模型结构。
- 海量数据训练: 基于 70 万小时的多语言音频数据进行训练,覆盖英语、中文、德语、日语、法语、西班牙语、韩语和阿拉伯语等多种语言。
Fish Agent 能做什么?
- 语音转换: 将一种语言的语音实时转换为另一种语言,实现跨语言交流。
- 语音编辑: 对语音进行修改、剪辑和拼接,满足个性化需求。
- 语音合成: 将文本转换为自然流畅的语音,广泛应用于语音助手、有声书等领域。
技术亮点
- 基于 Qwen-2.5-3B-Instruct: 模型在强大的基础模型上进行进一步训练,性能更优。
- 海量数据: 70 万小时的训练数据保证了模型的鲁棒性和泛化能力。
- 多语言支持: 覆盖全球主要语言,满足多样化的需求。
相关文章
相关文章
正文完
关注公众号获取最新教程

发表至: AI语音
2024-11-04