阿里巴巴通义实验室推出多模态语音大模型MinMo，实现无缝语音交互

浏览：315次阅读

共计 973 个字符，预计需要花费 3 分钟才能阅读完成。

文章目录[隐藏]

解决现有问题
MinMo 的技术创新
性能表现

阿里巴巴通义实验室近期推出了一款名为 MinMo 的多模态语音大模型，该模型拥有约 80 亿参数，专注于提升语音理解和生成能力。MinMo 旨在克服当前语音交互系统面临的挑战，包括处理语音内容、情感语调及音频线索，同时提供准确且连贯的响应。

相关主页：https://funaudiollm.github.io/minmo

解决现有问题

当前的语音交互系统主要分为两类：原生多模态模型和对齐多模态模型。前者虽然集成了语音和文本的理解与生成，但由于语音序列较长导致效率低下，并且面临语音数据有限的问题；后者则试图将语音能力与预训练的文本模型结合，但往往缺乏对复杂语音任务的支持，如情感识别或说话人分析。此外，这些模型尚未充分评估其在不同说话风格或全双工会话中的表现。

MinMo 的技术创新

为了解决这些问题，MinMo 采用了多阶段训练方法来对齐语音和文本模态，支持多种任务，如语音转文本、文本转语音、语音转语音以及双工交互。其核心组件包括：

SenseVoice-large：用于多语言语音和情感识别的语音编码器。
Qwen2.5-7B-instruct：用于文本处理的大规模语言模型（LLM）。
CosyVoice 2：用于高效音频生成的模块。
AR 流式 Transformer 语音解码器：提升性能并减少延迟。

MinMo 在超过 140 万小时的语音数据上进行了训练，这使得它不仅能够在多个基准测试中达到最先进的性能，还能有效防止对文本 LLM 能力的灾难性遗忘。

性能表现

研究人员对 MinMo 进行了广泛的评估，结果显示：

在多语言语音识别任务中，MinMo 的表现优于 Whisper Large v3 等模型，特别是在多语言语音翻译方面达到了最新的技术高度。
在语音转文本增强、语音情感识别（SER）和音频事件理解等方面，MinMo 同样表现出色。
使用 Fleur 数据集进行的语言识别任务中，MinMo 实现了 85.3% 的准确率，超越了所有先前的模型。
在性别检测、年龄估计和标点插入等任务中，MinMo 也展现了强劲的表现。
在语音生成任务中，特别是在方言和角色扮演任务中，MinMo 的准确率达到 98.4%，远超 GLM-4-Voice 的 63.1%。

尽管 MinMo 在语音转语音任务中的表现有所下降，但它在对话任务和逻辑推理中仍表现出高灵敏度，轮换预测性能约为 99%，并且能够实现约 600 毫秒的全双工交互响应延迟。

阿里巴巴通义实验室推出多模态语音大模型MinMo，实现无缝语音交互

解决现有问题

MinMo 的技术创新

性能表现

相关文章

相关文章

相关文章