共计 973 个字符,预计需要花费 3 分钟才能阅读完成。
文章目录[隐藏]
阿里巴巴通义实验室近期推出了一款名为 MinMo 的多模态语音大模型,该模型拥有约 80 亿参数,专注于提升语音理解和生成能力。MinMo 旨在克服当前语音交互系统面临的挑战,包括处理语音内容、情感语调及音频线索,同时提供准确且连贯的响应。
解决现有问题
当前的语音交互系统主要分为两类:原生多模态模型和对齐多模态模型。前者虽然集成了语音和文本的理解与生成,但由于语音序列较长导致效率低下,并且面临语音数据有限的问题;后者则试图将语音能力与预训练的文本模型结合,但往往缺乏对复杂语音任务的支持,如情感识别或说话人分析。此外,这些模型尚未充分评估其在不同说话风格或全双工会话中的表现。
MinMo 的技术创新
为了解决这些问题,MinMo 采用了多阶段训练方法来对齐语音和文本模态,支持多种任务,如语音转文本、文本转语音、语音转语音以及双工交互。其核心组件包括:
- SenseVoice-large:用于多语言语音和情感识别的语音编码器。
- Qwen2.5-7B-instruct:用于文本处理的大规模语言模型(LLM)。
- CosyVoice 2:用于高效音频生成的模块。
- AR 流式 Transformer 语音解码器:提升性能并减少延迟。
MinMo 在超过 140 万小时的语音数据上进行了训练,这使得它不仅能够在多个基准测试中达到最先进的性能,还能有效防止对文本 LLM 能力的灾难性遗忘。
性能表现
研究人员对 MinMo 进行了广泛的评估,结果显示:
- 在多语言语音识别任务中,MinMo 的表现优于 Whisper Large v3 等模型,特别是在多语言语音翻译方面达到了最新的技术高度。
- 在语音转文本增强、语音情感识别(SER)和音频事件理解等方面,MinMo 同样表现出色。
- 使用 Fleur 数据集进行的语言识别任务中,MinMo 实现了 85.3% 的准确率,超越了所有先前的模型。
- 在性别检测、年龄估计和标点插入等任务中,MinMo 也展现了强劲的表现。
- 在语音生成任务中,特别是在方言和角色扮演任务中,MinMo 的准确率达到 98.4%,远超 GLM-4-Voice 的 63.1%。
尽管 MinMo 在语音转语音任务中的表现有所下降,但它在对话任务和逻辑推理中仍表现出高灵敏度,轮换预测性能约为 99%,并且能够实现约 600 毫秒的全双工交互响应延迟。
相关文章
相关文章
正文完
关注公众号获取最新教程
