HTML转换为高质量的Markdown支持29种语言,使用Kokoro-82M将电子书变为有声书,唱歌声音转换模型

关注我,记得标星⭐️不迷路哦~


✨ 1: ReaderLM-v2

ReaderLM-v2是一个支持29种语言的强大模型,专用于将HTML转换为高质量的Markdown或JSON。

ReaderLM-v2 是由 Jina AI 开发的一款具有 1.5 亿参数的语言模型,专门用于将原始 HTML 转换为格式美观的 Markdown 或 JSON。相比前一版本,ReaderLM-v2 在多个方面取得了显著的改进。

地址:https://huggingface.co/jinaai/ReaderLM-v2

✨ 2: PDF to Podcast

NVIDIA的PDF转Podcast蓝图帮助开发者将PDF文档转换为引人入胜的音频内容,保护敏感数据安全。

PDF to Podcast 是一个由 NVIDIA 提供的 AI 蓝图,旨在帮助开发者构建可以将 PDF 文档转换为生动音频内容的应用程序。该蓝图基于 NVIDIA NIM 微服务架构,能够在私有网络中安全运行,从而在不共享敏感数据的情况下提供可操作的见解。用户可以上传目标 PDF 文档,系统会生成音频内容,并可以选择性地添加上下文 PDF 文档作为参考。

地址:https://github.com/NVIDIA-AI-Blueprints/pdf-to-podcast

✨ 3: Audiblez

Audiblez 可将普通的 .epub 电子书转换为高质量的 .m4b 有声书,支持多种语言和声音选择。

Audiblez是一款能够将常规的.epub电子书转换为.m4b有声书的工具,使用Kokoro高质量的语音合成技术。Kokoro v0.19是一个最新发布的文本转语音模型,具有自然的发音效果,支持多种语言,包括英语、法语、韩语、日语和普通话。

地址:https://github.com/santinic/audiblez

✨ 4: RIFT-SVC

RIFT-SVC是基于Transformer的唱歌声音转换模型,具有多项优化与改进。

RIFT-SVC(Rectified Flow Transformer for Singing Voice Conversion)是一种基于矩形流转换器的歌声转换模型,旨在通过多种架构和训练改进,提升传统扩散变换器的性能。该模型的主要功能是将一个歌手的声音特征转换为另一个歌手的声音特征,保持语音内容的连贯性,同时实现对声调和表达的精确控制。

地址:https://github.com/Pur1zumu/RIFT-SVC

✨ 5: MangaNinja

MangaNinja是一种基于参考图的线条艺术自动上色方法,旨在加速动漫颜色处理流程。

MangaNinja是一种基于参考的线条艺术上色方法,旨在自动对齐参考图像与线条艺术,从而实现精确的色彩化。该项目的目标是加速动漫产业中的上色过程,提供了用户通过点控制实现更复杂任务的功能。

地址:https://github.com/ali-vilab/MangaNinjia



(文:每日AI新工具)

欢迎分享

发表评论