共计 1445 个字符,预计需要花费 4 分钟才能阅读完成。
在 AI 领域,要说到对开源最积极的大公司那就一定是 Meta,之前已经给大家分享过 Meta 开源的「Segment Anything」、「Magic Copy」、「Animated Drawings」、「MusicGen」等,今天再给大家介绍一款 Meta 在昨天正式开源的能够翻译和转录数十种语言的人工智能模型「SeamlessM4T」,目前 Meta 已经将代码与数据集 SeamlessAlign 一同释出,Meta 表示它代表了人工智能驱动的“语音到语音”和“语音到文本”领域的“重大突破”。
官方新闻地址:https://ai.meta.com/blog/seamless-m4t
GitHub 地址:https://github.com/facebookresearch/seamless_communication
「SeamlessM4T」可以在近 100 种语言之间进行文本到语音的翻译,并支持 35 种语言的完全语音到语音翻译。「SeamlessM4T」以 CC BY-NC 4.0 的形式向公众免费提供该模型(仅限非商业用途),以便研究人员和开发人员在此基础上开展工作。Meta 释出的 SeamlessAlign 元数据是迄今为止最大的开放多模式翻译数据集,挖掘的语音和文本对齐总计达 270000 小时。
- 近 100 种语言的语音识别。
- 近 100 种输入和输出语言的语音到文本翻译。
- 支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。
- 支持近 100 种语言的文本到文本翻译。
- 支持近 100 种输入语言和 35 种输出语言的文本到语音翻译。
Meta 释出了两个模型,SeamlessM4T-Large 模型 11.4G,seamless-m4t-medium 模型 6.84G,从模型大小来看 8G 以下显卡就不要在本地尝试了,因此还是建议大家使用官方释出的 Demo
如何使用 SeamlessM4T?
目前官方开放了两个试玩 Demo,一个是它们的官网,一个是 Hugging;
1、首先打开官方页面后,点击【START DEMO】录制一段声音,因此需要你有麦克风
录制完毕后,即可选择要翻译的语言,我选择了英语、日语和韩语
但我测试了几次,有不少次识别率很糟糕,录制声音尽量慢一点读音准确一点,这样识别率就会变高,而翻译的也十分准确
2、官方还在 Hugging Face space 上释出了 Demo,可试用的功能更多,目前支持语音对语音翻译、语音转文本翻译、文本转语音翻译、文本转文本翻译以及自动语音识别
上传语音或者使用麦克风录制语音,选择目标语言,然后就可以点击【Translate】进行翻译,15 秒的音频使用了近 150 秒才翻译完成;试听效果后,中文语音翻译成韩语准确率很差,换成英语后准确率就很好,因此建议大家还是不要尝试小语种
音频转换成文本识别率很好,小编上传的这段识别率 100%
3、目前已经有网友制作出了 Colab 版本,大家可以在谷歌 Colab 进行安装试用 SeamlessM4T
结语
目前 SeamlessM4T 在语音对语音翻译(大语种)、语音转文本翻译、文本转文本翻译以及自动语音识别方面表现不错,但在文本转语音(中文)方面表现很差,大家也可以去试试,如果你的显卡够好也可以在本地安装进行测试。
