腾讯混元开源新作!超强的音频驱动数字人生成模型,支持多角色、多风格及口型与表情同步!

腾讯混元与腾讯音乐联合开源的数字人音频驱动模型HunyuanVideo-Avatar,支持单或多角色对话和多种图像风格生成。通过一张人物图片和一段音频(最长14秒),生成高保真语音驱动动画,并引入了三项关键创新。

多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% 清华腾讯斯坦福联合

清华大学等机构联合发布RBench-V,评估大模型的视觉推理能力。结果显示表现最好的模型o3准确率仅为25.8%,远低于人类的82.3%。论文在Reddit机器学习社区引发讨论。

鹅厂放大招,混元图像2.0「边说边画」:描述完,图也生成好了

腾讯发布混元图像2.0模型,实现毫秒级响应实时生成图文。用户可通过手打Prompt、语音输入或上传参考图进行创作,支持多种风格转换与优化功能。亮点包括更大模型参数、高压缩倍率图像编解码器、多模态大语言模型作为文本编码器等。

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

腾讯混元等联合提出的新模型UnifiedReward-Think能进行长链式推理,首次让奖励模型在视觉任务上真正 ‘学会思考’。该研究提出了三阶段训练框架,并展示了其在多个视觉任务中的出色表现和可靠性。

1秒钟生成3D模型!腾讯混元甩出5款开源3D模型,自研架构加速效果超30倍

腾讯混元一次性开源了5款全新的3D生成模型,其中3款模型实现了秒级3D资产生成,较之前版本提速30倍左右。模型在贴图细节、材质表达等方面也有明显提升,并支持多种主流格式的输出,可直接用于3D打印和分享。