项目简介
这个项目可以将音频/视频中的音频转为文字,最大的特点是使用了 Whisper.cpp,所以兼容性非常好,所有平台都能跑。另外性能也很不错,官方宣称可以在大约 2-3 分钟内转录 2 小时的音频。作为对比,Whisper API转录 20-30 分钟的音频需要大约 40 分钟。
在之前的版本中,我对我们应用程序的性能和可访问性感到不满意。我们之前的实现过于依赖 CUDA。AMD 用户必须安装特定的 Pytorch 包,但安装过程过于困难,而且实际上并没有带来太多好处。
经过一番研究,我创建了一个 ZLUDA 分支来模拟 CUDA;不幸的是,ZLUDA 的所有实现都不支持 Pytorch。
但并非所有希望都已破灭。
经过更多研究和挫折,我听说 Whisper.cpp。它是对 OpenAI Whisper API 的纯 C++ 实现,依赖最少。由于它可以轻松使用 Vulkan,结合 CPU + GPU 加速,并且可以轻松在 Linux 上编译,值得一试。
结果非常令人惊讶:使用我当前的硬件,Whisper.cpp 可以在大约 2-3 分钟内转录 2 小时的音频。相比之下,使用多进程和常规的 Whisper API,转录 20-30 分钟的音频需要大约 40 分钟。
与我的设计理念相一致,即软件应尽可能简单易用,我提供了一种 64 位预编译的 Whisper.cpp 版本,支持 Vulkan,因此这次如果您使用 Windows,只需下载我们的仓库并使用 Python 运行主脚本即可:
Python SoftWhisper.py 这就是全部!如果您没有这些模型,它们也会为您下载。
请注意,我尚未在 Linux 下测试此应用程序;然而,只需将您选择的编译后的 Whisper.cpp 文件放置在项目同一文件夹下即可。应用程序默认查找的名称是 Whisper_lin-x64;然而,您也可以通过简单地启动应用程序并在“Whisper.cpp 可执行文件”选项下更改目录来选择您喜欢的目录。
安装步骤
Windows
只需点击 SoftWhisper.bat
。如果缺少任何依赖项,系统将提示您安装。如果安装失败,请使用以下命令手动安装依赖项:
pip install -r requirements.txt
Linux
目前,便捷脚本不可用。使用以下命令安装依赖项:
pip install -r requirements.txt
然后使用 SoftWhisper 运行:python SoftWhisper.py
已知问题
-
尽管性能非常出色,这款软件仍然比应有的代码行数多得多,我可能会在未来解决这个问题。 -
我无法在这款版本中正确实现说话人识别功能,因此已将其禁用并从界面中移除。 -
当你选择新视频时,它不会立即加载视频。你需要按播放。
项目链接
https://github.com/NullMagic2/SoftWhisper
扫码加入技术交流群,备注「开发语言-城市-昵称」
(文:GitHubStore)