零样本复刻任意人声!中英文混合生成丝滑无界!
Spark-TTS 是一个先进的文本到语音系统,利用大型语言模型实现高度准确和自然的声音合成。它简洁高效,支持零样本语音克隆及双语支持,具备可控语音生成功能。
Spark-TTS 是一个先进的文本到语音系统,利用大型语言模型实现高度准确和自然的声音合成。它简洁高效,支持零样本语音克隆及双语支持,具备可控语音生成功能。
Krillin AI 是一款全能型音视频本地化与增强解决方案,支持横竖屏格式输出,一键启动、精准识别、智能分段等功能。
该 OCR 系统支持多语言文本、数学公式、表格、图表和图形的提取,并附带语义注释。它能生成 AI 准备的 JSON 或 Markdown 输出,包括数学表达式的描述、表格摘要和图形标题,准确率高达 90-95%。
一款全平台音乐播放器Alger Music Player,支持网易云账号登录同步、歌词显示和自定义选项,提供桌面客户端和网页版,兼容多种设备。
BabelDOC 是一个强大的 PDF 科学论文翻译工具,支持双语对照、数学公式、表格和图形保留原格式。可使用命令行界面安装或在线服务免费每月翻译 1000 字节。
使用微信聊天记录微调大语言模型实现高质量声音克隆,并绑定到微信机器人生成数字分身。项目包括数据准备、模型下载与训练、多卡训练及接口推理等步骤。
Dolphin 是由 Dataocean AI 和清华大学合作开发的多语言语音识别模型,支持40种东方语言和22种汉语方言。它在210,000小时的数据上训练完成,包含专用数据集和开源数据集。该模型能执行语音识别、VAD、分割和LID任务。