以自己托管的开源Whisper 解决方案「VoiceStreamAI」

浏览：228次阅读

共计 205 个字符，预计需要花费 1 分钟才能阅读完成。

VoiceStreamAI 是一款可以自己托管的开源 Whisper 解决方案，服务端是 Python，客户端是 JavaScript，基于 WebSocket 实时通信，可以做到语音的实时传输和文本转换。该系统采用 Huggingface 的声活动检测（VAD）和 OpenAI 的 Whisper 模型进行准确的语音识别和处理。