# Whisper — OpenAI 开源语音识别模型

> 68种语言语音转文字，支持多语言识别/翻译/语种检测，命令行即可使用

## 是什么

Whisper 是 OpenAI 开源的多语言语音识别模型，基于 68 万小时弱监督数据训练，可完成语音转文字、多语言翻译、语种检测等多个任务。

## 核心功能

- **多语言语音识别**：支持 68 种语言的语音转文字
- **多语言翻译**：语音直接翻译成目标语言
- **语种识别**：自动判断音频语种
- **命令行使用**：安装后一条命令即可转写
- **多模型规格**：tiny/base/small/medium/large/turbo 按需选择

## 模型规格

| 模型 | 参数量 | 相对速度 |
|------|--------|----------|
| tiny | 39M | ~10x |
| base | 74M | ~7x |
| small | 244M | ~4x |
| medium | 769M | ~2x |
| large | 1550M | 1x |
| turbo | 809M | ~8x |

## 安装使用

```bash
pip install -U openai-whisper

# 转写音频文件
whisper audio.mp3 --model small --language Chinese

# 实时转写（需麦克风）
whisper --model medium --device cuda  # GPU加速
```

## 应用场景

- 播客/视频字幕制作
- 会议录音转文字
- 多语言内容翻译
- 语音数据标注

---

**分类**：软件
**标签**：语言 · 语音 · 识别
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1624