重磅开源!英伟达团队推出Eagle 2.5,8B参数性能叫板GPT-4o,附带全新数据集

英伟达团队发布Eagle 2.5视觉语言模型,在长上下文多模态学习方面取得显著进展,其在Video-MME基准测试中实现了72.4%的高准确率。该模型通过信息优先采样、渐进式混合后训练和多样性驱动的数据配方等创新技术提升性能,并已在开源社区上线。

必看!VividTalk:阿里、南大等联合打造,一张照片+音频秒变说话头像视频黑科技

VividTalk是南京大学、阿里巴巴、字节跳动和南开大学联合开发的人工智能技术项目,通过音频驱动生成逼真的说话头像视频。该项目采用先进的3D混合先验技术和双分支运动-VAE(变分自编码器)来实现高质量的视觉效果和自然同步对话。

Hallo 登场!突破传统,音频赋能视觉合成的创新先锋

音频驱动的层次化视觉合成工具Hallo通过分层音频驱动视觉合成模块和端到端扩散范式实现了高质量的肖像图像动画生成。其精细的区域划分与同步建模、端到端的特点以及多种预训练模型支持,使其在多媒体内容创作、虚拟人物互动和智能客服等领域具有广泛应用前景。