共计 1264 个字符,预计需要花费 4 分钟才能阅读完成。
Whisper 是 OpenAI 旗下的开源语音识别系统,可以将语音转换为文字,支持多种语言,之前小编给大家介绍过《 开源 Whisper 客户端「Transcribe Audio」》,「Transcribe Audio」 是通过 OpenAI API 来实现语音转换文字,今天要给大家介绍 Buzz 同样是一款基于 OpenAI Whisper 的开源的实时语音转文字工具,不同点在于其可离线运行,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。
功能:
- 导入音频和视频文件并将文字记录导出为 CSV、SRT、TXT 和 VTT
- 通过麦克风进行实时转录和翻译(转录和翻译质量取决于模型大小)
- 支持 90 多种语言
如何使用 Buzz?
下载安装 Buzz 后,第一次使用 Buzz,会自动下载 Whisper 的模型,也可以在菜单栏选择 Help 然后点击 Preferences,在 Models 处下载模型,如果你的电脑性能不行也可以在 General 处使用 OpenAI API;下载模型时需要科学上网,small 模型就可以取得不错的效果,目前 Buzz 里的 large 模型是 large-v2 模型:
质量 | 尺寸 | English-only model | Multilingual model | 必需的显存 | 速度 |
---|---|---|---|---|---|
tiny | 72 M | tiny.en | tiny | ~1 GB | ~32x |
base | 138 M | base.en | base | ~1 GB | ~16x |
small | 461 M | small.en | small | ~2 GB | ~6x |
medium | 1.42G | medium.en | medium | ~5 GB | ~2x |
large-v2 | 2.87G | N/A | large | ~10 GB | 1x |
Whisper 模型存储在电脑中:
~\.cache\whisper~\Library\Caches/Buzz
(macOS)~\.cache\Buzz
(Linux)C:\Users\<username>\.cache\whisper
(Windows)
当卸载的时,可以直接到模型存储所在位置删除即可
点击小话筒就是实时转录,点击 + 就是添加音频,然后就会开启设置窗口:
- Translate(翻译)
- Transcribe(转录)
支持的格式:“mp3”,“wav”,“m4a”,“ogg”,“mp4”,“webm”,“ogm”
导出的格式:“TXT”、“SRT”、“VTT”
小编添加了一段 15 秒的音频,模型选择 Whisper 的小模型,task(任务)处选择转录,语言处选择 Chinese,导出格式选择 TXT 和 SRT,处理完毕大概 9 秒(显卡是 GTX4070)
结语:
Buzz 是基于 Whisper,语音转文本功能非常强,但在翻译方面效果就差上一截,如果你下载是使用 Buzz 不方便,小编已经将软件和模型下载后上传到网盘,大家可以通过网盘下载。