开源TTS领域迎来重磅新星!Dia-1.6B:超逼真对话生成,开源2天斩获6.5K Star!
由Nari Labs开发的Dia-1.6B因其逼真的对话生成能力而受到关注,仅开源两天便在GitHub收获了6.5K+Star。它支持多角色对话、拟人化表达、零样本声纹克隆等功能,并且运行效率高,音质媲美ElevenLabs和Sesame。
由Nari Labs开发的Dia-1.6B因其逼真的对话生成能力而受到关注,仅开源两天便在GitHub收获了6.5K+Star。它支持多角色对话、拟人化表达、零样本声纹克隆等功能,并且运行效率高,音质媲美ElevenLabs和Sesame。
一款名为WatermarkRemover-AI的开源AI水印移除工具利用微软Florence-2模型和LaMA模型精准识别并修复水印,支持单张图片与批量处理,效果自然且惊艳。
一款免费、开源的音乐创作与编辑工具OpenUtau,兼容UTAU库和采样器,支持VSQX导入等强大功能,适用于Windows、macOS和Linux。
一款名为BiliNote的AI视频笔记助手,支持B站、YouTube等平台视频链接输入,自动提取内容并生成Markdown格式笔记,利用Fast-Whisper和OpenAI等模型提升效率。
ControlNet 作者张吕敏(Liyuan Zhang)发布FramePack技术,让普通RTX3060笔记本也能生成高质量长视频,仅需6GB显存。FramePack提出了一种逐帧预测架构,解决了遗忘与漂移问题,大幅提升连贯性和质量,现已在GitHub上获得3.2K星。
前两天掀起热潮的AI控制手机工具DroidRun已开源,通过自然语言命令实现Android手机自动化操作。支持多个LLM提供商,多设备兼容性强。
Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型,能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术,能够实现统一处理图像、文字输入输出,表现出色的视觉理解和强大的图像生成功能。
Ableton发布MCP应用AbletonMCP,利用Claude AI与Ableton Live双向通信,实现音乐制作的‘对话式编曲’,只需简单指令即可完成轨道操作、音效选择等任务。