Whisper — OpenAI 开源语音识别模型

68种语言语音转文字，支持多语言识别/翻译/语种检测，命令行即可使用

是什么

Whisper 是 OpenAI 开源的多语言语音识别模型，基于 68 万小时弱监督数据训练，可完成语音转文字、多语言翻译、语种检测等多个任务。

核心功能

多语言语音识别：支持 68 种语言的语音转文字
多语言翻译：语音直接翻译成目标语言
语种识别：自动判断音频语种
命令行使用：安装后一条命令即可转写
多模型规格：tiny/base/small/medium/large/turbo 按需选择

模型规格

模型	参数量	相对速度
tiny	39M	~10x
base	74M	~7x
small	244M	~4x
medium	769M	~2x
large	1550M	1x
turbo	809M	~8x

安装使用

pip install -U openai-whisper

# 转写音频文件
whisper audio.mp3 --model small --language Chinese

# 实时转写（需麦克风）
whisper --model medium --device cuda  # GPU加速

应用场景

播客/视频字幕制作
会议录音转文字
多语言内容翻译
语音数据标注

6200举报0

Xiao.Xi•1个月前

点击获取 ^_^

被收录：

语言语音识别

暂无评论