9.1K+ Star!ebook2audiobook:一个将电子书转换为有声书的工具

欢迎关注我,持续获取更多内容,感谢&在看~

ebook2audiobook 简介

ebook2audiobook[1] 是一个将电子书转换为有声书的工具,支持多种语言(超过 1107 种)和语音克隆功能。它通过动态 AI 模型和语音合成技术,将电子书内容转换为带有章节和元数据的有声书。

它的目标是为用户提供一种便捷的方式来享受有声阅读体验,同时支持多种电子书格式和输出格式。

项目特点

主要特点

  1. 电子书格式支持:支持多种电子书格式,如 .epub.pdf.mobi.txt 等。
  2. 多语言支持:支持超过 1107 种语言,包括但不限于英语、中文、阿拉伯语、法语等。
  3. 语音克隆功能:用户可以使用自己的语音文件进行语音克隆,生成个性化的有声书。
  4. 高质量语音合成:使用 Coqui XTTSv2、Fairseq 等技术,提供高质量的语音合成效果。
  5. 章节分割:自动将电子书内容分割为章节,便于有声书的组织和播放。
  6. 硬件适配:支持 CPU、GPU 和 Apple Silicon 等多种硬件平台。
  7. Docker 支持:提供 Docker 镜像,方便用户在不同环境中运行。

使用场景

  • 个人阅读:将电子书转换为有声书,方便在开车、运动或休息时收听。
  • 多语言学习:通过语音克隆和多语言支持,帮助用户学习不同语言的发音和表达。
  • 内容创作:为播客、有声读物创作者提供素材生成工具。
  • 企业应用:用于生成有声内容,如有声教程、有声广告等。

项目使用

安装与启动

  1. 克隆项目
git clone https://github.com/DrewThomasson/ebook2audiobook.git
  1. 运行 Gradio Web 界面
  • Linux/MacOS
./ebook2audiobook.sh
  • Windows
.\ebook2audiobook.cmd
  • 打开终端中提供的 URL,即可访问 Web 应用并开始转换电子书。
  • 如果需要生成公共链接,可在命令中添加 --share 参数。
  1. 无头模式(Headless Mode)
  • Linux/MacOS
./ebook2audiobook.sh --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码>
  • Windows
.\ebook2audiobook.cmd --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码>
  • 参数说明:
  • --ebook:电子书文件路径。
  • --voice:语音克隆文件路径(可选)。
  • --language:语言代码(如 eng 表示英语,zh 表示中文)。

自定义模型使用

用户可以上传自定义的语音合成模型(必须为 .zip 格式,包含必要的模型文件)。例如:

./ebook2audiobook.sh --headless --ebook <电子书路径> --voice <语音文件路径> --language <语言代码> --custom_model <自定义模型路径>

Docker 使用

  1. 运行 Docker 容器:
  • 仅使用 CPU:
docker run --rm -p 7860:7860 athomasson2/ebook2audiobook
  • 使用 GPU 加速(仅限 NVIDIA):
docker run --rm --gpus all -p 7860:7860 athomasson2/ebook2audiobook
  1. 构建 Docker 镜像:
docker build --platform linux/amd64 -t athomasson2/ebook2audiobook .
  1. 无头模式运行:
  • 创建 input-folder 和 Audiobooks 文件夹,并将电子书文件放入 input-folder 中。
  • 使用以下命令运行:
docker run --rm \
-v $(pwd)/input-folder:/home/user/app/input_folder \
-v $(pwd)/audiobooks:/home/user/app/audiobooks \
athomasson2/ebook2audiobook \
--headless --ebook /input_folder/<电子书文件名>

其他功能

  • Hugging Face Space 演示:提供在线演示平台,用户可以通过 Hugging Face Space[2] 试用。
  • Google Colab 支持:用户可以通过 Google Colab[3] 免费试用,但可能会因超时而中断。

参考文档

  • 支持的语言详情[4]
  • Docker 官方文档[5]
  • Coqui XTTSv2 GitHub[6]
  • Fairseq GitHub[7]

注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。在线演示

欢迎关注&点赞&在看,感谢你的阅读~


资源列表
[1] 

Github地址: https://github.com/DrewThomasson/ebook2audiobook

[2] 

Hugging Face Space 演示: https://huggingface.co/spaces/drewThomasson/ebook2audiobook

[3] 

Google Colab 支持: https://colab.research.google.com/github/DrewThomasson/ebook2audiobook/blob/main/Notebooks/colab_ebook2audiobook.ipynb

[4] 

支持的语言列表: https://dl.fbaipublicfiles.com/mms/tts/all-tts-languages.html

[5] 

Docker 使用指南: https://docs.docker.com/

[6] 

Coqui XTTSv2 文档: https://huggingface.co/coqui/XTTS-v2

[7] 

Fairseq 文档: https://github.com/facebookresearch/fairseq/tree/main/examples/mms

(文:AIGC创想者)

欢迎分享

发表评论