【1.13更新】FasterWhisperGUI v0.5.7，开源多语言语音识别系统第三方GUI版

117次阅读

前言：
这是我制作第74回红白歌会字幕时寻得的软件，基于OpenAI宣布开源的多语言语音识别系统Whisper，市面上应该没有第二个比它更准确的多语言语音识别系统了，我今天发布的这个软件就是基于它进行优化后的FastWhisper项目的GUI版本FasterWhisperGUI，之前论坛已经发布过WhisperDesktop了，所以我简单说一下它们之间的区别，因为WhisperDesktop是基于C++的Whisper项目而非FastWhisper的，所以效果肯定是没有本软件好的，速度也更慢，并且它也不支持额外参数，导致真正使用的时候效果并不好，我就是因为这点弃用WhisperDesktop的，此外，本软件还支持基于Demucs的人声提取（你应该也找不出第二个比它好的人声提取项目了）以及基于whisperX的字幕处理功能

软件简介：

This is a GUI software of faster-whisper , you can:

Transcrib audio or video files to srt/txt/smi/vtt/lrc file
convert online OpenAI-whisper-models to ct2 format
provide all paraments of VAD-model and whisper-model
now, it support whisperX
Demucs model support
whisper large-v3 model support

用ChatGPT4将这段话翻译为中文：

这是faster-whisper的图形用户界面软件，您可以：

将音频或视频文件转录为srt/txt/smi/vtt/lrc文件
将在线OpenAI-whisper模型转换为ct2格式
提供VAD模型和whisper模型的所有参数
现在，它支持whisperX
支持Demucs模型
支持whisper large-v3模型

总结就是本软件由国人制作，于GitHub开源，集成了Demusc、FastWhisper、whisperX三个项目，可以说是字幕生成一条龙服务了，一个人就能用它制作出外语字幕

软件功能：
1.加载本地模型和在线下载模型以及一些小调整，如果你是英伟达显卡，处理设备记得选择cuda以加快速度，此外，国内下载模型速度很慢，推荐加载本地模型，文章末尾我会提供链接

2.支持调整VAD参数，这个功能可以筛选出没有声音的片段，减小工作量，还是很重要的

3.支持FastWhiper模型的详细参数调整，这个功能很有用，有的时候提取结果不理想，通过调整这个就能改善

4.支持Demucs人声提取，先提取人声，之后将提取出来的音频来进行转换为文本，不仅结果更加精准，效率也更高

5.批量提取音频中的文本，这个没什么好说的，添加文件点转换就行

6.基于whisperX的后字幕处理功能，处理完之后一定要记得导出

因为时间比较紧，只能这么简短介绍了

更新日志：

0.5.7 改动
修复关闭表格时，当前转写结果不更新的 bug

文件列表功能更新 #66

添加从剪贴板读取、粘贴文件名到文件列表的功能
文件列表一键清除功能
完善文件列表多选时移除文件的功能逻辑
文件拖放支持文件夹功能
文件拖放支持子文件夹递归
添加手动导出、导入配置的功能

设置页面添加滚动

修复重复转写时同名不同路径的文件导致，表格覆盖且添加失败的问题。 #61

修复 V3 模型的在线下载功能

升级 faster- whisper 到 0.10.0
修复单词级时间戳占用显存过多导致速度变慢甚至崩溃的 bug

已经升级 CTranslate2 至最新版本，如果还是存在上述问题，请升级显卡驱动。
添加改变主题色功能

再次修复部分音视频文件无法识别音频流的 bug

作者提示：

手动卸载 whisper 模型失败或者软件崩溃的情况下，请将温度参数设置为一个 0，温度候选个数设置为 1。
转写结果较多时窗体可能崩溃，建议关闭自动跳转功能
由于本人打包安装包的时候经常忘记封装 ffmpeg (悲)，所以以后的安装包可能都不再提供 ffmpeg，请大家自己安装好自己的 ffmpeg。本次单独提供 ffmpeg.7z 的下载，解压缩之后放在任意目录并添加该目录到环境变量，或者放入软件安装目录下。

软件以及模型下载地址：
软件本体：
123云盘：https://www.123pan.com/s/HfxDVv-VQo7d.html
百度网盘：https://pan.baidu.com/s/19jL__S62S1pDTm5TtSt6sg?pwd=5zux 提取码: 5zux
GitHub Releases：https://github.com/CheshireCC/faster-whisper-GUI/releases

FFmpeg（如果已有则不用安装，之前没安装过请下载并且解压到软件安装目录）：
123云盘：https://www.123pan.com/s/HfxDVv-jQo7d.html
百度网盘：https://pan.baidu.com/s/13rBUinmYctHoCFHiqKVLrg?pwd=fj5c 提取码: fj5c

fast-whisper模型下载地址：
Huggingface：https://huggingface.co/models?sort=trending&search=faster-whisper （官方的模型下载网站，模型最全，并且有很多用户自己做的改版）
百度网盘：https://pan.baidu.com/s/1befgw3FQjl3orQQVPHxP8Q?pwd=63zj 提取码：63zj （本软件作者提供的百度网盘，里面只收录了官方的模型，没有改版模型）

当你面对这么多模型无法选择的时候，我只能说效果最好的是large-v3 model float32，追求效率的可以选择medium，想体验一下的选择small

特别地，如果你想将日语视频转为文字，或者是电脑算力不够，这里还有一个基于谷歌Colab的在线项目，同样也是基于fast-whisper：N46Whisper（乃木坂46的低语，雾）

这只是一个挖坑贴，所以写的比较简单，目的是让更多人知道FasterWhisperGUI，不要再被国内的各种付费语音转文字网站忽悠了，说不定他们用的就是这个软件呢，或者效果还没这个好，哈哈

正文完

发表至：精品软件

2024-11-29

0