开源TTS领域迎来重磅新星!Dia-1.6B:超逼真对话生成,开源2天斩获6.5K Star!

由Nari Labs开发的Dia-1.6B因其逼真的对话生成能力而受到关注,仅开源两天便在GitHub收获了6.5K+Star。它支持多角色对话、拟人化表达、零样本声纹克隆等功能,并且运行效率高,音质媲美ElevenLabs和Sesame。

AI赛博佛祖张吕敏再掀开源风暴!FramePack:开启AI视频生成超低显存时代!

ControlNet 作者张吕敏(Liyuan Zhang)发布FramePack技术,让普通RTX3060笔记本也能生成高质量长视频,仅需6GB显存。FramePack提出了一种逐帧预测架构,解决了遗忘与漂移问题,大幅提升连贯性和质量,现已在GitHub上获得3.2K星。

多模态AI模型再添猛将!Liquid:字节最新开源的多模态LLM,视觉与语言统一生成!

Liquid 是一款由字节跳动、华中科技大学和香港大学联合开源的强大模型,能无缝集成视觉理解与生成能力。其7B参数的多模态大语言模型基于离散编码技术,能够实现统一处理图像、文字输入输出,表现出色的视觉理解和强大的图像生成功能。