Whisper — OpenAI 开源语音识别模型

Whisper — OpenAI 开源语音识别模型


68种语言语音转文字,支持多语言识别/翻译/语种检测,命令行即可使用

是什么

Whisper 是 OpenAI 开源的多语言语音识别模型,基于 68 万小时弱监督数据训练,可完成语音转文字、多语言翻译、语种检测等多个任务。

核心功能

  • 多语言语音识别:支持 68 种语言的语音转文字
  • 多语言翻译:语音直接翻译成目标语言
  • 语种识别:自动判断音频语种
  • 命令行使用:安装后一条命令即可转写
  • 多模型规格:tiny/base/small/medium/large/turbo 按需选择

模型规格

模型参数量相对速度
tiny39M~10x
base74M~7x
small244M~4x
medium769M~2x
large1550M1x
turbo809M~8x

安装使用

pip install -U openai-whisper

# 转写音频文件
whisper audio.mp3 --model small --language Chinese

# 实时转写(需麦克风)
whisper --model medium --device cuda  # GPU加速

应用场景

  • 播客/视频字幕制作
  • 会议录音转文字
  • 多语言内容翻译
  • 语音数据标注
1500举报0Xiao.Xi11天前
点击获取 ^_^
被收录:

暂无评论