用 AI 一键音频转文字!基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

676次阅读
没有评论

共计 1264 个字符,预计需要花费 4 分钟才能阅读完成。

Whisper 是 OpenAI 旗下的开源语音识别系统,可以将语音转换为文字,支持多种语言,之前小编给大家介绍过《 开源 Whisper 客户端「Transcribe Audio」》,「Transcribe Audio」 是通过 OpenAI API 来实现语音转换文字,今天要给大家介绍 Buzz 同样是一款基于 OpenAI Whisper 的开源的实时语音转文字工具,不同点在于其可离线运行,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。

开源地址:https://github.com/chidiwilliams/buzz

官网地址:https://buzzcaptions.com

用 AI 一键音频转文字!基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

功能:

  • 导入音频和视频文件并将文字记录导出为 CSV、SRT、TXT 和 VTT
  • 通过麦克风进行实时转录和翻译(转录和翻译质量取决于模型大小)
  • 支持 90 多种语言

如何使用 Buzz?

下载安装 Buzz 后,第一次使用 Buzz,会自动下载 Whisper 的模型,也可以在菜单栏选择 Help 然后点击 Preferences,在 Models 处下载模型,如果你的电脑性能不行也可以在 General 处使用 OpenAI API;下载模型时需要科学上网,small 模型就可以取得不错的效果,目前 Buzz 里的 large 模型是 large-v2 模型:

质量 尺寸 English-only modelMultilingual model 必需的显存 速度
tiny72 Mtiny.entiny~1 GB~32x
base138 Mbase.enbase~1 GB~16x
small461 Msmall.ensmall~2 GB~6x
medium1.42Gmedium.enmedium~5 GB~2x
large-v22.87GN/Alarge~10 GB1x

用 AI 一键音频转文字!基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

Whisper 模型存储在电脑中:

  • ~\.cache\whisper~\Library\Caches/Buzz(macOS)
  • ~\.cache\Buzz(Linux)
  • C:\Users\<username>\.cache\whisper(Windows)

当卸载的时,可以直接到模型存储所在位置删除即可

用 AI 一键音频转文字!基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

点击小话筒就是实时转录,点击 + 就是添加音频,然后就会开启设置窗口:

  • Translate(翻译)
  • Transcribe(转录)

支持的格式:“mp3”,“wav”,“m4a”,“ogg”,“mp4”,“webm”,“ogm”

导出的格式:“TXT”、“SRT”、“VTT”

用 AI 一键音频转文字!基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

小编添加了一段 15 秒的音频,模型选择 Whisper 的小模型,task(任务)处选择转录,语言处选择 Chinese,导出格式选择 TXT 和 SRT,处理完毕大概 9 秒(显卡是 GTX4070)

用 AI 一键音频转文字!基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具「Buzz」

结语:

Buzz 是基于 Whisper,语音转文本功能非常强,但在翻译方面效果就差上一截,如果你下载是使用 Buzz 不方便,小编已经将软件和模型下载后上传到网盘,大家可以通过网盘下载。

https://www.123pan.com/s/I1oZVv-SxuGA.html 提取码:buzz

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2023-08-18发表,共计1264字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。