应用介绍
WhisperLiveKit 是一个开源的实时语音处理工具,结合前端浏览器与后端服务,支持本地运行。它能在超低延迟下完成语音转文字,并提供 多语言翻译、说话人识别、语音活动检测 等功能。
🎯 核心功能与特性
🎙 实时语音转文字:基于 Whisper 与 Simul-Whisper,实现超低延迟的实时转录
🌍 多语言翻译:支持 NLLW/NLLB,覆盖 200 种语言的双向翻译
🗣 说话人识别:集成 Sortformer 与 Diart,实现实时说话人分离与标注
🔊 语音活动检测:采用 Silero VAD,降低无声时的计算开销
⚡ 高性能架构:支持多用户并发,智能缓冲与增量处理,避免语音切割丢失上下文
💻 前后端一体化:提供 Python/FastAPI 后端与 HTML/JS 前端,开箱即用
🤖 AI 模型兼容:可选择 OpenAI API、Faster-Whisper、本地模型(如 MLX Whisper),灵活部署
🐳 Docker 部署:支持 GPU/CPU 容器化运行,方便生产环境集成

