Whisper是由OpenAI创建的开源自动语音识别(ASR)模型,具有极为强大的开箱即用性能。它经过了680,000小时的标注音频数据训练,其中117,000小时的训练涵盖了除英语以外的96种语言,这意味着它可以在各种应用中发挥出色的表现。WhisperDesktop是基于该技术开发的适合于本地离线使用的软件。
它可以识别英语,中文,可能还包括日语以及其他很多语种的音频,可以识别英文歌词;识别效果特别好,甚至还可以翻译其他语言的语音到英文。而且不管多差的电脑,只要支持DX11,就能支持GPU硬件加速,我1060m用最大尺寸的模型识别一个小时的视频只要20多分钟
可以说有了这个,看视频基本不再需要英文字幕了(当然,不支持英文翻译成中文)
首先先下载主程序:https://github.com/Const-me/Whisper
然后下载模型:https://huggingface.co/ggerganov/whisper.cpp/tree/main
下不动的话把huggingface.co换成hf-mirror.com
不要下载任何带v3的模型,因为本程序还不支持,也不要下载结尾带q的量化模型,因为可能也不支持
显卡性能凑合的(960什么的就算凑合了)下载large模型,追求速度或者显卡过于垃圾的可以下载medium或者base模型,因为什么原因完全不支持硬件加速的下载small和tiny模型,文件名里带点en的意思是只支持英语,不支持识别其他语言
然后导入模型,软件自身可以直接打开常见的音视频文件,但是为了避免出现不断重复一句话无法继续识别的bug,建议进行以下操作:
1.将你要识别的音视频转换成mp3或者wav格式
2.用人声提取软件只保留视频中的人声(这个只保留人声的音频只作为中间步骤)
3.将只有人声的音频导入软件识别,输出字幕
4.加载原始音视频和识别后的字幕
以下是效果:(火纹皇女那个是直接识别的edge of dawn音乐)






上一篇:
回乡下摘菜下一篇:
大老杨最终还是买了吃灰神器!!