开源语音识别工具 Whisper

创建于2023-07-18

2026年7月20日更新

预计阅读2分钟

全文约692字

Whisper 是一个通用的语音识别模型。它在一个庞大的多样化音频数据集上进行训练，是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。

安装

环境要求

根据官方文档，开发人员采用了Python 3.9.9 和 PyTorch 1.10.1去开发和训练Whisper，但是同时也提到了支持Python 3.8-3.11和最近版本的PyTorch，这里以PyTorch 2.0.1版本和Python 3.10.12版本为例，操作系统版本为Ubuntu 20.04 LTS。

依赖项

最基础的依赖项是FFmpeg和Git。

1	apt install ffmpeg git

Python

不再赘述，详情请看上篇文章：Ubuntu 下 Python 编译安装及关联问题解决。

顺带提一嘴，Python换源：

1	pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

Pytorch

我这里服务器没显卡，所以选择了CPU版本。实际情况请打开PyTorch下拉找到“INSTALL PYTORCH”根据自己实际情况选择，nvidia显卡选CUDA版本，AMD显卡选ROCm版本，都没有的选CPU版本。

查看CUDA版本：在Shell或命令提示符输入nvidia-smi查看CUDA版本：

C:\Users\Username>nvidia-smi
Tue Jul 18 11:36:13 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 496.49       Driver Version: 496.49       CUDA Version: 11.5     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ... WDDM  | 00000000:01:00.0 Off |                  N/A |
| N/A   53C    P8     9W /  N/A |    153MiB /  6144MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

选好后执行“Run this Command:”后面的命令即可。中间出现错误只需要重复执行命令直到安装完成即可。

Whisper

首先拉取最新的代码：

1	pip install git+https://github.com/openai/whisper.git

然后更新依赖与安装

1	pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

依旧是出现错误只需要重复执行命令直到安装完成。

使用

将音频传入主机，然后执行

1	whisper audio.mp3

参数

--model：使用的模型，默认情况下使用的是small模型，可用模型参见Available models and languages。
--language：指定语言，默认情况下Whisper将取音频的前五秒识别是什么语言，如果识别不正确则可以在此处指定语言。

模型下载较慢解决

模型下载时是从Azure上下载，在国内的话比较慢，我们可以自己搭建一个下载点。我采用的方法是在本地搭建一个nginx并将模型文件全部放入web文件夹下。

模型地址在/usr/local/lib/python3.10/site-packages/whisper/__init__.py中的_MODELS数组中，需要注意的是每条链接以/分割的倒数第二段是该模型的sha256值，如果有错误或干脆没有的话会报错。

Lxn-Chan!

开源语音识别工具 Whisper

安装

环境要求

依赖项

Python

Pytorch

Whisper

使用

参数

模型下载较慢解决

上一篇

CentOS 7 编译安装 Python 3

Linux CentOS Python

下一篇

Ubuntu 下 Python 编译安装及关联问题解决

Linux ubuntu Python

简单说两句