【1.13更新】FasterWhisperGUI v0.5.7,开源多语言语音识别系统 第三方GUI版

9次阅读
没有评论

前言:
这是我制作第74回红白歌会字幕时寻得的软件,基于OpenAI宣布开源的多语言语音识别系统Whisper,市面上应该没有第二个比它更准确的多语言语音识别系统了,我今天发布的这个软件就是基于它进行优化后的FastWhisper项目的GUI版本FasterWhisperGUI,之前论坛已经发布过WhisperDesktop了,所以我简单说一下它们之间的区别,因为WhisperDesktop是基于C++的Whisper项目而非FastWhisper的,所以效果肯定是没有本软件好的,速度也更慢,并且它也不支持额外参数,导致真正使用的时候效果并不好,我就是因为这点弃用WhisperDesktop的,此外,本软件还支持基于Demucs的人声提取(你应该也找不出第二个比它好的人声提取项目了)以及基于whisperX的字幕处理功能

软件简介:

This is a GUI software of faster-whisper , you can:

  • Transcrib audio or video files to srt/txt/smi/vtt/lrc file
  • convert online OpenAI-whisper-models to ct2 format
  • provide all paraments of VAD-model and whisper-model
  • now, it support whisperX
  • Demucs model support
  • whisper large-v3 model support

用ChatGPT4将这段话翻译为中文:

这是faster-whisper的图形用户界面软件,您可以:

  • 将音频或视频文件转录为srt/txt/smi/vtt/lrc文件
  • 将在线OpenAI-whisper模型转换为ct2格式
  • 提供VAD模型和whisper模型的所有参数
  • 现在,它支持whisperX
  • 支持Demucs模型
  • 支持whisper large-v3模型

总结就是本软件由国人制作,于GitHub开源,集成了Demusc、FastWhisper、whisperX三个项目,可以说是字幕生成一条龙服务了,一个人就能用它制作出外语字幕

软件功能:
1.加载本地模型和在线下载模型以及一些小调整,如果你是英伟达显卡,处理设备记得选择cuda以加快速度,此外,国内下载模型速度很慢,推荐加载本地模型,文章末尾我会提供链接

2.支持调整VAD参数,这个功能可以筛选出没有声音的片段,减小工作量,还是很重要的

3.支持FastWhiper模型的详细参数调整,这个功能很有用,有的时候提取结果不理想,通过调整这个就能改善

4.支持Demucs人声提取,先提取人声,之后将提取出来的音频来进行转换为文本,不仅结果更加精准,效率也更高

5.批量提取音频中的文本,这个没什么好说的,添加文件点转换就行

6.基于whisperX的后字幕处理功能,处理完之后一定要记得导出

因为时间比较紧,只能这么简短介绍了

更新日志:

0.5.7 改动
修复关闭表格时,当前转写结果不更新的 bug

文件列表功能更新 #66

添加从剪贴板读取、粘贴文件名到文件列表的功能
文件列表一键清除功能
完善文件列表多选时移除文件的功能逻辑
文件拖放支持文件夹功能
文件拖放支持子文件夹递归
添加手动导出、导入配置的功能

设置页面添加滚动

修复重复转写时同名不同路径的文件导致,表格覆盖且添加失败的问题。 #61

修复 V3 模型的在线下载功能

升级 faster- whisper 到 0.10.0
修复单词级时间戳占用显存过多导致速度变慢甚至崩溃的 bug

已经升级 CTranslate2 至最新版本,如果还是存在上述问题,请升级显卡驱动。
添加改变主题色功能

再次修复部分音视频文件无法识别音频流的 bug

作者提示:

手动卸载 whisper 模型失败或者软件崩溃的情况下,请将 温度 参数设置为一个 0,温度候选个数设置为 1。
转写结果较多时窗体可能崩溃,建议关闭自动跳转功能
由于本人打包安装包的时候经常忘记封装 ffmpeg (悲),所以以后的安装包可能都不再提供 ffmpeg,请大家自己安装好自己的 ffmpeg。本次单独提供 ffmpeg.7z 的下载,解压缩之后放在任意目录并添加该目录到环境变量,或者放入软件安装目录下。

软件以及模型下载地址:
软件本体:
123云盘:https://www.123pan.com/s/HfxDVv-VQo7d.html
百度网盘:https://pan.baidu.com/s/19jL__S62S1pDTm5TtSt6sg?pwd=5zux 提取码: 5zux
GitHub Releases:https://github.com/CheshireCC/faster-whisper-GUI/releases

FFmpeg(如果已有则不用安装,之前没安装过请下载并且解压到软件安装目录):
123云盘:https://www.123pan.com/s/HfxDVv-jQo7d.html
百度网盘:https://pan.baidu.com/s/13rBUinmYctHoCFHiqKVLrg?pwd=fj5c 提取码: fj5c

fast-whisper模型下载地址:
Huggingface:https://huggingface.co/models?sort=trending&search=faster-whisper (官方的模型下载网站,模型最全,并且有很多用户自己做的改版)
百度网盘:https://pan.baidu.com/s/1befgw3FQjl3orQQVPHxP8Q?pwd=63zj 提取码:63zj (本软件作者提供的百度网盘,里面只收录了官方的模型,没有改版模型)

当你面对这么多模型无法选择的时候,我只能说效果最好的是large-v3 model float32,追求效率的可以选择medium,想体验一下的选择small

特别地,如果你想将日语视频转为文字,或者是电脑算力不够,这里还有一个基于谷歌Colab的在线项目,同样也是基于fast-whisper:N46Whisper(乃木坂46的低语,雾)

这只是一个挖坑贴,所以写的比较简单,目的是让更多人知道FasterWhisperGUI,不要再被国内的各种付费语音转文字网站忽悠了,说不定他们用的就是这个软件呢,或者效果还没这个好,哈哈

正文完
 0
116博客
版权声明:本篇文章由 116博客 于2024-11-29发表,共计2557字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码