太给力了!刚刚开源的TTS模型,1:1零样本声音克隆,连呼吸节奏都能控制!

Spark-TTS 是一款全新的高质量语音合成系统,支持零样本语音克隆、细粒度语音控制、跨语言生成等功能。它结合了 BiCodec 编解码器和 Qwen-2.5 思维链技术,实现自然且高效的语音生成,适用于多种场景如有声读物、多语言内容及AI角色配音。

达摩院开源AI妆容迁移,把妆容一键换到指定人物脸上,AI在美妆行业新落地场景。

达摩院开源的AI妆容迁移项目基于潜在扩散模型,采用‘解耦-重构’范式和自监督学习策略。通过拉普拉斯金字塔分解纹理细节及迭代双重对齐模块,提升图像真实性、内容保留与妆容保真度,为化妆迁移任务提供全新解决方案。