腾讯混元开源新作!超强的音频驱动数字人生成模型,支持多角色、多风格及口型与表情同步!
腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar,支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频(最长14秒),生成高保真语音驱动动画,并引入了三项关键创新。
腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar,支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频(最长14秒),生成高保真语音驱动动画,并引入了三项关键创新。
清华大学等机构联合发布RBench-V,评估大模型的视觉推理能力。结果显示表现最好的模型o3准确率仅为25.8%,远低于人类的82.3%。论文在Reddit机器学习社区引发讨论。
清华团队发布RIFLEx模型,仅需一行代码即可突破视频生成长度限制至10秒。该模型适用于基于RoPE的各类Video Diffusion Transformer。
腾讯混元发布游戏视觉生成平台Hunyuan-Game,提供一站式AIGC游戏内容生产引擎,涵盖四大图像生成模型和五大视频模型,助力提升游戏美术设计效率。
腾讯发布混元图像2.0模型,实现毫秒级响应实时生成图文。用户可通过手打Prompt、语音输入或上传参考图进行创作,支持多种风格转换与优化功能。亮点包括更大模型参数、高压缩倍率图像编解码器、多模态大语言模型作为文本编码器等。
腾讯混元等联合提出的新模型UnifiedReward-Think能进行长链式推理,首次让奖励模型在视觉任务上真正 ‘学会思考’。该研究提出了三阶段训练框架,并展示了其在多个视觉任务中的出色表现和可靠性。
腾讯混元与InstantX合作推出开源版角色生成插件InstantCharacter,基于DiTs架构实现高保真度和个性化角色创作,克服了传统方法的限制。
腾讯混元一次性开源了5款全新的3D生成模型,其中3款模型实现了秒级3D资产生成,较之前版本提速30倍左右。模型在贴图细节、材质表达等方面也有明显提升,并支持多种主流格式的输出,可直接用于3D打印和分享。