Fish Audio 的 OpenAudio S1:新一代语音生成,让机器也能“声临其境”!
OpenAudio S1 是 Fish Audio 推出的多语言 TTS 模型,基于超过200万小时的音频数据训练,采用双自回归架构和强化学习与人类反馈技术。支持13种语言、40亿参数版本及5亿参数开源版,并具备零样本语音克隆功能。
OpenAudio S1 是 Fish Audio 推出的多语言 TTS 模型,基于超过200万小时的音频数据训练,采用双自回归架构和强化学习与人类反馈技术。支持13种语言、40亿参数版本及5亿参数开源版,并具备零样本语音克隆功能。
使用微信聊天记录微调大语言模型实现高质量声音克隆,并绑定到微信机器人生成数字分身。项目包括数据准备、模型下载与训练、多卡训练及接口推理等步骤。
Orpheus TTS 提供语音克隆、情感控制和低延迟功能的开源 TTS 系统。CrackCode 是一款隐蔽的 AI 面试助手。Claude Code but with OpenAI Models 使用 OpenAI 模型提供实时代码建议。Local Whisper 实现本地实时语音转录,YT Navigator 是一个高效的 YouTube 内容搜索工具。
中文AI绘图和声音能力迅速提升。上周即梦v2.1解决了中文海报无法直出的问题;海螺AI Audio模块在本周上线,允许用户只需30秒音频素材即可克隆他人声音,已解决中文语音克隆痛点,成为最强的中文AI声音克隆工具之一。