ebook2audiobook 简介
ebook2audiobook[1] 是一个将电子书转换为有声书的工具,支持多种语言(超过 1107 种)和语音克隆功能。它通过动态 AI 模型和语音合成技术,将电子书内容转换为带有章节和元数据的有声书。
它的目标是为用户提供一种便捷的方式来享受有声阅读体验,同时支持多种电子书格式和输出格式。

项目特点
主要特点
-
电子书格式支持:支持多种电子书格式,如 .epub
、.pdf
、.mobi
、.txt
等。 -
多语言支持:支持超过 1107 种语言,包括但不限于英语、中文、阿拉伯语、法语等。 -
语音克隆功能:用户可以使用自己的语音文件进行语音克隆,生成个性化的有声书。 -
高质量语音合成:使用 Coqui XTTSv2、Fairseq 等技术,提供高质量的语音合成效果。 -
章节分割:自动将电子书内容分割为章节,便于有声书的组织和播放。 -
硬件适配:支持 CPU、GPU 和 Apple Silicon 等多种硬件平台。 -
Docker 支持:提供 Docker 镜像,方便用户在不同环境中运行。
使用场景
-
个人阅读:将电子书转换为有声书,方便在开车、运动或休息时收听。 -
多语言学习:通过语音克隆和多语言支持,帮助用户学习不同语言的发音和表达。 -
内容创作:为播客、有声读物创作者提供素材生成工具。 -
企业应用:用于生成有声内容,如有声教程、有声广告等。
项目使用
安装与启动
-
克隆项目:
git clone https://github.com/DrewThomasson/ebook2audiobook.git
-
运行 Gradio Web 界面:
-
Linux/MacOS:
./ebook2audiobook.sh
-
Windows:
.\ebook2audiobook.cmd
-
打开终端中提供的 URL,即可访问 Web 应用并开始转换电子书。 -
如果需要生成公共链接,可在命令中添加 --share
参数。
-
无头模式(Headless Mode):
-
Linux/MacOS:
./ebook2audiobook.sh --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码>
-
Windows:
.\ebook2audiobook.cmd --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码>
-
参数说明: -
--ebook
:电子书文件路径。 -
--voice
:语音克隆文件路径(可选)。 -
--language
:语言代码(如eng
表示英语,zh
表示中文)。
自定义模型使用
用户可以上传自定义的语音合成模型(必须为 .zip
格式,包含必要的模型文件)。例如:
./ebook2audiobook.sh --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码> --custom_model <自定义模型路径>
Docker 使用
-
运行 Docker 容器:
-
仅使用 CPU:
docker run --rm -p 7860:7860 athomasson2/ebook2audiobook
-
使用 GPU 加速(仅限 NVIDIA):
docker run --rm --gpus all -p 7860:7860 athomasson2/ebook2audiobook
-
构建 Docker 镜像:
docker build --platform linux/amd64 -t athomasson2/ebook2audiobook .
-
无头模式运行:
-
创建 input-folder
和Audiobooks
文件夹,并将电子书文件放入input-folder
中。 -
使用以下命令运行:
docker run --rm \
-v $(pwd)/input-folder:/home/user/app/input_folder \
-v $(pwd)/audiobooks:/home/user/app/audiobooks \
athomasson2/ebook2audiobook \
--headless --ebook /input_folder/<电子书文件名>
其他功能
-
Hugging Face Space 演示:提供在线演示平台,用户可以通过 Hugging Face Space[2] 试用。 -
Google Colab 支持:用户可以通过 Google Colab[3] 免费试用,但可能会因超时而中断。
参考文档
-
支持的语言详情[4] -
Docker 官方文档[5] -
Coqui XTTSv2 GitHub[6] -
Fairseq GitHub[7]

注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。在线演示
欢迎关注&点赞&在看,感谢你的阅读~
Github地址: https://github.com/DrewThomasson/ebook2audiobook
[2]Hugging Face Space 演示: https://huggingface.co/spaces/drewThomasson/ebook2audiobook
[3]Google Colab 支持: https://colab.research.google.com/github/DrewThomasson/ebook2audiobook/blob/main/Notebooks/colab_ebook2audiobook.ipynb
[4]支持的语言列表: https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html
[5]Docker 使用指南: https://docs.docker.com/
[6]Coqui XTTSv2 文档: https://huggingface.co/coqui/XTTS-v2
[7]Fairseq 文档: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
(文:AIGC创想者)