来自美国卡内基梅隆大学、日本本田研究所的研究人员推出新型开放源代码的语音模型这篇论文介绍了一个名为 OWSM v3.1(Open Whisper-style Speech Model),旨在提高语音识别和翻译的性能和效率。OWSM v3.1 是在之前 OWSM 模型的基础上进行改进的,它在不增加额外训练数据的情况下,通过使用更先进的 E -Branchformer 编码器来提升性能。
主要特点:
- 性能提升 :OWSM v3.1 在多种评估基准测试中表现出色,尤其是在英语自动语音识别(ASR)、多语言 ASR、语音翻译(ST)和口语理解(SLUE-PERB)测试集中。
- 推理速度加快 :与之前的 OWSM v3 模型相比,OWSM v3.1 在推理(即模型执行任务时)速度上提高了 16% 到 25%。
- 公开透明 :研究者公开了数据准备脚本、预训练模型和训练日志,以促进透明度和开放科学。
工作原理: OWSM v3.1 的核心是 E -Branchformer 编码器,它结合了并行分支来捕获语音特征序列中的局部和全局上下文信息,并与卷积合并。这种架构在大规模多语言、多任务和长形式数据上训练时表现出更稳定的收敛性。为了加速和稳定大型 E -Branchformer 模型的训练,研究者提出了一种新颖的分段线性学习率调度策略,并在训练过程中采用了 FlashAttention 技术。
具体应用场景:
- 自动语音识别(ASR):OWSM v3.1 可以用于提高各种语言的语音识别准确率。
- 语音翻译(ST):模型支持多种语言之间的语音翻译,提高了翻译的质量和速度。
- 口语理解(SLU):在情感分析、命名实体识别、命名实体定位和对话行为分类等任务中,OWSM v3.1 展示了其强大的编码器能力。
- 多语言支持 :OWSM v3.1 支持 151 种语言,适用于全球范围内的语音处理任务。
OWSM v3.1 是一个在性能和效率上都有显著提升的开放源代码语音模型,它为语音处理领域的研究和应用提供了一个强大的工具。