SIGGRAPH 2025|Large Avatar Model:单图秒级打造超写实3D交互数字人,跨平台超实时驱动渲染

LAM论文提出了一种通过单张图像实现即时驱动高斯头像的方法,无需后处理网络和视频数据训练,支持跨平台实时渲染,已在多模态艺术创作、智能交互对话等领域应用。

鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了

腾讯发布混元图像2.0模型,实现毫秒级响应实时生成图文。用户可通过手打Prompt、语音输入或上传参考图进行创作,支持多种风格转换与优化功能。亮点包括更大模型参数、高压缩倍率图像编解码器、多模态大语言模型作为文本编码器等。

超级爆火的TTS模型:Kokoro!荣登 TTS Arena 排行榜第一名,小巧轻量高性能!

一款名为Kokoro TTS的开源文本转语音模型凭借其82M参数和高效性能迅速走红。它支持多种语言,并能在普通CPU上实现近乎实时的语音生成,适用于语音助手、有声读物等应用场景。