基于OpenAI开源语音识别模型Whisper的第三方工具大盘点,看看哪款适合你?

368次阅读
没有评论

共计 1980 个字符,预计需要花费 5 分钟才能阅读完成。

Whisper 是 OpenAI 旗下的开源语音识别模型,可以将语音转换为文字,支持多种语言,目前网上有非常多开发者基于此开源模型打造语音识别产品,之前小编就给大家介绍过不少,今天就给大家做一个合集,大家可以根据自己需求进行选择,一起来看看吧!

基于 OpenAI 开源语音识别模型 Whisper 的第三方工具大盘点,看看哪款适合你?

Buzz

Buzz 是一款基于 OpenAI Whisper 的开源的实时语音转文字工具,不同点在于其可离线运行,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。

开源地址:https://github.com/chidiwilliams/buzz

官网地址:https://buzzcaptions.com

基于 OpenAI 开源语音识别模型 Whisper 的第三方工具大盘点,看看哪款适合你?

Transcribe Audio

Transcribe Audio 是一个非常简易的开源 Whisper 客户端,它只有三个文件:index.html、index.js、style.css,只需要下载、解压缩,将 index.html 拖到浏览器里就可以使用,也可以将这些文件上传到主机空间绑定域名进行访问。在顶部输入你的 OpenAI API key(和 ChatGPT 同一个),就可以选择音频文件进行转换,支持保存为文本、.srt、.vtt 三种格式。

支持上传音频格式:mp3、mp4、mpeg、mpga、m4a、wav、webm、mp4、mpeg、webm

开源地址:https://github.com/felixbade/transcribe

官方 DEMO:https://transcribe.bloat.app

基于 OpenAI 开源语音识别模型 Whisper 的第三方工具大盘点,看看哪款适合你?

GPT-Subtitle

「GPT-Subtitle」是结合了 Whisper 和 OpenAI 的 GPT-3 语言模型  的开源应用,为大家提供音频和视频的本地翻译功能。此应用不仅能够将字幕转换成对话并进行翻译,而且支持多种语言的翻译,并能方便地将字幕翻译成其他语言。此应用支持 Docker 部署,具体可查看 Github 页面。

开源地址:https://github.com/hqwuzhaoyi/gpt-subtitle

基于 OpenAI 开源语音识别模型 Whisper 的第三方工具大盘点,看看哪款适合你?

Whisper JAX 

Whisper JAX」是一款基于 Whisper API 的在线语音转文字工具,此工具托管在 Hugging Face 平台,直接在浏览器打开网页使用即可,目前支持麦克风、录音文件、YouTube 三种音频来源,单文件 2 小时以内免费使用。

地址:https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

基于 OpenAI 开源语音识别模型 Whisper 的第三方工具大盘点,看看哪款适合你?

Whisper Desktop

「Whisper Desktop」是一款基于 OpenAI 旗下开源语音识别系统 Whisper 的免费开源可可离线使用的「影音文件转文字、字幕」桌面端软件,可以在 Windows 上简单执行,它会利用电脑当中的显卡(GPU)当作算力,在离线的本机端完成语音转文字的功能。

开源地址:https://github.com/Const-me/Whisper

基于 OpenAI 开源语音识别模型 Whisper 的第三方工具大盘点,看看哪款适合你?

VoiceStreamAI

VoiceStreamAI 是一款可以自己托管的 开源 Whisper 解决方案,服务端是 Python,客户端是 JavaScript,基于 WebSocket 实时通信,可以做到语音的实时传输和文本转换。该系统采用 Huggingface 的声活动检测(VAD)和 OpenAI 的 Whisper 模型进行准确的语音识别和处理。

GitHub 地址:https://github.com/alesaccoia/VoiceStreamAI

基于 OpenAI 开源语音识别模型 Whisper 的第三方工具大盘点,看看哪款适合你?

语音识别转文字工具(tts)

一个离线运行的本地语音识别转文字工具,基于 openai-whipser 开源模型,可将视频 / 音频中的人类声音识别并转为文字,可输出 json 格式、srt 字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同 openai 官方 api 接口。

GitHub 地址:https://github.com/jianchang512/stt

基于 OpenAI 开源语音识别模型 Whisper 的第三方工具大盘点,看看哪款适合你?

Faster Whisper

faster-whisper 是基于 OpenAI 的 Whisper 模型的高效实现,它利用 CTranslate2,一个专为 Transformer 模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度,还优化了内存使用效率。faster-whisper 的核心优势在于其能够在保持原有模型准确度的同时,大幅提升处理速度,这使得它在处理大规模语音数据时更加高效。

GitHub 地址:https://github.com/SYSTRAN/faster-whisper

Whisper-WebUI

一个基于 Gradio 的 Whisper 浏览器界面,您可以将其用作简易字幕生成器。

GitHub 地址:https://github.com/jhj0517/Whisper-WebUI

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-02发表,共计1980字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。