Insanely-Fast-Whisper 简介
Insanely-Fast-Whisper 是一个基于 OpenAI Whisper 的极速语音识别(ASR)优化方案,旨在通过多种技术手段(如模型量化、硬件加速、批处理等)显著提升 Whisper 的推理速度,使其适用于实时转录、大规模音频处理等高性能场景。
https://github.com/Vaibhavs10/insanely-fast-whisper
📌 核心特点
✅ 超快推理速度 – 相比原生 Whisper,速度提升 4-10 倍(取决于硬件和优化方式)。
✅ 低延迟实时转录 – 适用于直播、会议记录等需要即时转写的场景。
✅ 支持多种优化方式 – 包括 GPU 加速、模型量化、批处理等。
✅ 兼容不同 Whisper 模型 – 支持 tiny
、base
、small
、medium
、large-v3
等不同规模的模型。
✅ 跨平台支持 – 可在 CPU/GPU 上运行,并支持 Windows/Linux/macOS。
🚀 加速方案对比
优化方式 | 速度提升 | 适用场景 | 依赖项 |
---|---|---|---|
GPU 加速 (CUDA) | 3-5x | 高性能 GPU 环境 | torch + CUDA |
faster-whisper | 4-6x | 平衡速度与精度 | CTranslate2 |
8-bit 量化 | 2-3x | 低显存 GPU / 边缘设备 | bitsandbytes |
批处理 (Batch) | 2-5x | 处理多个音频文件 | torch |
whisper.cpp (CPU) | 2-4x | 无 GPU 环境 | ggml |
⚡ 快速体验
1. 使用 faster-whisper (推荐)
from faster_whisper import WhisperModel
model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
for segment in segments:
print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")
2. 使用量化 Whisper (8-bit)
import whisper
model = whisper.load_model("large-v3").cuda().half() # 半精度 + GPU
result = model.transcribe("audio.mp3", fp16=True)
print(result["text"])
3. 使用 OpenAI API(云端最快方案)
import openai
audio_file = open("audio.mp3", "rb")
transcript = openai.Audio.transcribe("whisper-1", audio_file)
print(transcript["text"])
📊 适用场景
🎙 实时语音转写 – 会议记录、直播字幕生成
📁 批量音频处理 – 播客、视频字幕生成
💻 边缘设备部署 – 嵌入式设备、低功耗场景
☁ 云端高性能 ASR – 结合 OpenAI API 实现超低延迟
🔗 相关项目
- faster-whisper – 基于 CTranslate2 的 Whisper 优化
- whisper.cpp – 纯 C++ 实现,适合 CPU
- OpenAI Whisper – 官方版本
💡 总结
Insanely-Fast-Whisper 不是单一工具,而是一系列优化 Whisper 速度的技术组合。用户可以根据自己的硬件和需求选择合适的方案,实现 超低延迟、高吞吐量 的语音识别。 🚀
支持的语言编码
['en', 'zh', 'de', 'es', 'ru', 'ko', 'fr', 'ja', 'pt', 'tr', 'pl', 'ca', 'nl', 'ar', 'sv', 'it', 'id', 'hi', 'fi', 'vi', 'he', 'uk', 'el', 'ms', 'cs', 'ro', 'da', 'hu', 'ta', 'no', 'th', 'ur', 'hr', 'bg', 'lt', 'la', 'mi', 'ml', 'cy', 'sk', 'te', 'fa', 'lv', 'bn', 'sr', 'az', 'sl', 'kn', 'et', 'mk', 'br', 'eu', 'is', 'hy', 'ne', 'mn', 'bs', 'kk', 'sq', 'sw', 'gl', 'mr', 'pa', 'si', 'km', 'sn', 'yo', 'so', 'af', 'oc', 'ka', 'be', 'tg', 'sd', 'gu', 'am', 'yi', 'lo', 'uz', 'fo', 'ht', 'ps', 'tk', 'nn', 'mt', 'sa', 'lb', 'my', 'bo', 'tl', 'mg', 'as', 'tt', 'haw', 'ln', 'ha', 'ba', 'jw', 'su', 'yue', 'my', 'ca', 'nl', 'ht', 'lb', 'ps', 'pa', 'ro', 'ro', 'si', 'es', 'zh'].
测试
测试1
原始素材 https://www.youtube.com/watch?v=gamRFNLuDMk&t=14s
用 https://y2mate.nu/en-PQEs/ 下载成mp3
总共6分钟 时长
time insanely-fast-whisper --language=zh --file-name 金灿荣有人说这次中国的大机会来了我并不乐观.mp3
指定 --model-name distil-whisper/large-v2 会导致 中文不识别 模型是 openai/whisper-large-v3
速度还行
warnings.warn(
🤗 Transcribing... ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0:00:01You have passed task=transcribe, but also have set `forced_decoder_ids` to [[1, None], [2, 50360]] which creates a conflict. `forced_decoder_ids` will be ignored in favor of task=transcribe.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
🤗 Transcribing... ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0:00:19
Voila!✨ Your file has been transcribed go check it out over here 👉 output.json
real 8m57.503s
user 1m8.955s
sys 0m27.846s
{"speakers": [], "chunks": [{"timestamp": [0.0, 245.88], "text": "就是随着乌克兰和美国矛盾的激化然后欧洲又明显的支持泽连斯基的立场所以最近美欧矛盾在上升当然除了乌克兰问题还有其他比如意识形态问题在2月14到16的慕尼黑安全会议上大家都注意到美国副总统万思上来就把欧洲现在的领导层再训了一遍对不对训完了之后跑去见德国选择党就是德国被认为是极右翼那个选择党的领袖魏德尔这样一下就把这个美欧矛盾就进一步凸显了一个美国是右翼执政欧洲目前是中间派或者偏左的力量执政所以他们有意识形态矛盾另外就是围绕着俄乌冲突美国特朗普还是主张照顾俄罗斯利益然后解决问题要乌克兰牺牲一点可是欧洲现在都不同意所以这是问题的一方面美欧矛盾正在凸显那么欧欧洲人呢现在就是议论啊这个战略自主特别是军事上战略自主这种声音在上来但是呢实际上美欧关系的基本结构没有变那就是欧洲国家普遍还是依赖美国的军事上就安全上依赖美国都没得说那个经济上也依赖美国政治上更依赖美国包括这个3月2号伦敦会议就斯塔默安排的伦敦会议实际上会议做了几个结论吧最后还是需要得到美国的支持知道吧那么斯塔默你看表面对那个泽连斯基很热情对吧他私下根据英国媒体报道他私下还是劝那个小子跟那个特朗普搞好关系嘛对不对这个所以欧洲这个领导人这几天开了好几次会做了很多秀但是心理上他们都还是知道离不开美国这就是美欧关系基本的性质有矛盾而且矛盾在凸显结构上欧洲对美国的依赖包括物理依赖心理依赖没有变所以吧所以在这个背景之下呢我们怎么看中欧关系啊我们要谨慎一点哎我是知道现在舆论场上有一种论调出来了没有关系不好对中欧关系很有利啊这个呢你要看细节可能并不是这样没有关系是不好哎但是没有到结构性改变的时候至于说中欧关系目前欧洲的主体舆论场还是对中国非常不满个别的政治家开始有这种想法通过跟中国关系再好一点可以增强欧洲对美国的谈判地位那这是少数人的看法呀多数人对中国影响并不好知道吧这个这就是我们这个面对的现实吧那么中欧之间的有些根本的差异这个目前暂时消除不了这意识形态的差异然后欧洲普遍对中国在俄乌冲突上的立场不满觉得我们偏俄的是一点另外就是经济上原来中国经济是非常互补的但随着中国制造2025成功我们产业升级成功中国之间就是经济上的竞争性是上来了"}, {"timestamp": [247.16, 248.7], "text": "这意识形态偏见"}, {"timestamp": [249.22, 251.52], "text": "俄乌问题上的立场不同"}, {"timestamp": [252.04, 255.62], "text": "经济上又从合作关系走向竞争关系"}, {"timestamp": [256.12, 258.18], "text": "所以中欧关系实际上是非常非常困难的"}, {"timestamp": [259.2, 261.0], "text": "这个有一点改善的余地"}, {"timestamp": [261.24, 263.3], "text": "中国也要认真地去抓这个"}, {"timestamp": [263.56, 264.58], "text": "这个机会啊"}, {"timestamp": [264.58, 365.2], "text": "但是我们心里得清楚美欧矛盾没有改变美欧是跨大西洋大联盟的结构而中欧关系改善有一点机会但能不能抓住还是有很多挑战的中欧有一段时间很认真地谈制贸协定都快达成了但是随着中美关系变化欧洲就受影响了他们单方面终止了中欧之间的制贸谈判那么现在少数欧洲人有这个想法重启中欧自贸协定谈判但是他不是主流所以近期内我觉得中欧重启自贸谈判的可能性并不大各位同学好中国人民大学国际国家学院在职课程班春季和秋季班正在面向全国招生了今年呢在原有六个专业的基础上人大国关紧跟时代需要新增了四门方向客船包括面向一带一路倡议新增了且出海面向区域国别研究新增了欧洲研究美国研究那么面向信息时代新增了算力与人工智能面向总体国家安全观新增了国家安全为同学们提供了更加新颖更加全面的教学内容通过参与这个项目呢你可以与教授们探讨国际议题拓展人脉学习结束后会获得结业证书"}, {"timestamp": [365.2, 366.78], "text": "满足相应的条件"}, {"timestamp": [366.78, 368.68], "text": "还可以申请硕士学位"}, {"timestamp": [368.68, 372.04], "text": "春季秋季班每期只招80人"}, {"timestamp": [372.04, 372.78], "text": "名额有限"}, {"timestamp": [372.78, 376.36], "text": "感兴趣的同学可以联系学院的宋老师"}], "text": "就是随着乌克兰和美国矛盾的激化然后欧洲又明显的支持泽连斯基的立场所以最近美欧矛盾在上升当然除了乌克兰问题还有其他比如意识形态问题在2月14到16的慕尼黑安全会议上大家都注意到美国副总统万思上来就把欧洲现在的领导层再训了一遍对不对训完了之后跑去见德国选择党就是德国被认为是极右翼那个选择党的领袖魏德尔这样一下就把这个美欧矛盾就进一步凸显了一个美国是右翼执政欧洲目前是中间派或者偏左的力量执政所以他们有意识形态矛盾另外就是围绕着俄乌冲突美国特朗普还是主张照顾俄罗斯利益然后解决问题要乌克兰牺牲一点可是欧洲现在都不同意所以这是问题的一方面美欧矛盾正在凸显那么欧欧洲人呢现在就是议论啊这个战略自主特别是军事上战略自主这种声音在上来但是呢实际上美欧关系的基本结构没有变那就是欧洲国家普遍还是依赖美国的军事上就安全上依赖美国都没得说那个经济上也依赖美国政治上更依赖美国包括这个3月2号伦敦会议就斯塔默安排的伦敦会议实际上会议做了几个结论吧最后还是需要得到美国的支持知道吧那么斯塔默你看表面对那个泽连斯基很热情对吧他私下根据英国媒体报道他私下还是劝那个小子跟那个特朗普搞好关系嘛对不对这个所以欧洲这个领导人这几天开了好几次会做了很多秀但是心理上他们都还是知道离不开美国这就是美欧关系基本的性质有矛盾而且矛盾在凸显结构上欧洲对美国的依赖包括物理依赖心理依赖没有变所以吧所以在这个背景之下呢我们怎么看中欧关系啊我们要谨慎一点哎我是知道现在舆论场上有一种论调出来了没有关系不好对中欧关系很有利啊这个呢你要看细节可能并不是这样没有关系是不好哎但是没有到结构性改变的时候至于说中欧关系目前欧洲的主体舆论场还是对中国非常不满个别的政治家开始有这种想法通过跟中国关系再好一点可以增强欧洲对美国的谈判地位那这是少数人的看法呀多数人对中国影响并不好知道吧这个这就是我们这个面对的现实吧那么中欧之间的有些根本的差异这个目前暂时消除不了这意识形态的差异然后欧洲普遍对中国在俄乌冲突上的立场不满觉得我们偏俄的是一点另外就是经济上原来中国经济是非常互补的但随着中国制造2025成功我们产业升级成功中国之间就是经济上的竞争性是上来了这意识形态偏见俄乌问题上的立场不同经济上又从合作关系走向竞争关系所以中欧关系实际上是非常非常困难的这个有一点改善的余地中国也要认真地去抓这个这个机会啊但是我们心里得清楚美欧矛盾没有改变美欧是跨大西洋大联盟的结构而中欧关系改善有一点机会但能不能抓住还是有很多挑战的中欧有一段时间很认真地谈制贸协定都快达成了但是随着中美关系变化欧洲就受影响了他们单方面终止了中欧之间的制贸谈判那么现在少数欧洲人有这个想法重启中欧自贸协定谈判但是他不是主流所以近期内我觉得中欧重启自贸谈判的可能性并不大各位同学好中国人民大学国际国家学院在职课程班春季和秋季班正在面向全国招生了今年呢在原有六个专业的基础上人大国关紧跟时代需要新增了四门方向客船包括面向一带一路倡议新增了且出海面向区域国别研究新增了欧洲研究美国研究那么面向信息时代新增了算力与人工智能面向总体国家安全观新增了国家安全为同学们提供了更加新颖更加全面的教学内容通过参与这个项目呢你可以与教授们探讨国际议题拓展人脉学习结束后会获得结业证书满足相应的条件还可以申请硕士学位春季秋季班每期只招80人名额有限感兴趣的同学可以联系学院的宋老师"}
测试2
素材来自国务院 大约1小时22分钟
openai/whisper-base
time insanely-fast-whisper --model-name=openai/whisper-base --language=zh --file-name 国务院总理李强回答中外记者提问.mp3
/data/projects/insanely-fast-whisper-test/venv/lib/python3.12/site-packages/transformers/models/whisper/generation_whisper.py:573: FutureWarning: The input name `inputs` is deprecated. Please make sure to use `input_features` instead.
warnings.warn(
🤗 Transcribing... ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0:00:26You have passed task=transcribe, but also have set `forced_decoder_ids` to [[1, None], [2, 50359]] which creates a conflict. `forced_decoder_ids` will be ignored in favor of task=transcribe.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
🤗 Transcribing... ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0:04:56
Voila!✨ Your file has been transcribed go check it out over here 👉 output.json
real 5m19.572s
user 5m47.987s
sys 0m7.343s
openai/whisper-large-v3
time insanely-fast-whisper --language=zh --file-name 国务院总理李强回答中外记者提问.mp3
Device set to use cuda:0
/data/projects/insanely-fast-whisper-test/venv/lib/python3.12/site-packages/transformers/models/whisper/generation_whisper.py:573: FutureWarning: The input name `inputs` is deprecated. Please make sure to use `input_features` instead.
warnings.warn(
🤗 Transcribing... ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0:00:24You have passed task=transcribe, but also have set `forced_decoder_ids` to [[1, None], [2, 50360]] which creates a conflict. `forced_decoder_ids` will be ignored in favor of task=transcribe.
🤗 Transcribing... ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0:00:24The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
🤗 Transcribing... ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0:05:06
Voila!✨ Your file has been transcribed go check it out over here 👉 output.json
real 5m22.458s
user 5m59.711s
sys 0m7.451s
总结
openai/whisper-large-v3
对中英文识别效果比较好 但是显存占用在10G
左右openai/whisper-base
对中英文识别效果不好, 有部分缺失,openai/whisper-medium
显存占用5-8G
左右 我感觉和large-v3
差不多openai/whisper-small
能看到明显数据错误distil-whisper/large-v2
更快 但是只能识别英文