
68种语言语音转文字,支持多语言识别/翻译/语种检测,命令行即可使用
是什么
Whisper 是 OpenAI 开源的多语言语音识别模型,基于 68 万小时弱监督数据训练,可完成语音转文字、多语言翻译、语种检测等多个任务。
核心功能
- 多语言语音识别:支持 68 种语言的语音转文字
- 多语言翻译:语音直接翻译成目标语言
- 语种识别:自动判断音频语种
- 命令行使用:安装后一条命令即可转写
- 多模型规格:tiny/base/small/medium/large/turbo 按需选择
模型规格
| 模型 | 参数量 | 相对速度 |
|---|---|---|
| tiny | 39M | ~10x |
| base | 74M | ~7x |
| small | 244M | ~4x |
| medium | 769M | ~2x |
| large | 1550M | 1x |
| turbo | 809M | ~8x |
安装使用
pip install -U openai-whisper
# 转写音频文件
whisper audio.mp3 --model small --language Chinese
# 实时转写(需麦克风)
whisper --model medium --device cuda # GPU加速
应用场景
- 播客/视频字幕制作
- 会议录音转文字
- 多语言内容翻译
- 语音数据标注
暂无评论
