好活!字节,南加大,斯坦福等新开源的小人跳舞X-Dyna,人脸、背景都生动起来了

人像视频生成领域的一个新进展,X-Dyna 使用轻量跨视频帧的注意力模块、人脸局部控制模块和人物肢体运动控制模块来实现精准的人物肢体动作及面部表情迁移,并保持自然背景的真实性。

必看!VividTalk:阿里、南大等联合打造,一张照片+音频秒变说话头像视频黑科技

VividTalk是南京大学、阿里巴巴、字节跳动和南开大学联合开发的人工智能技术项目,通过音频驱动生成逼真的说话头像视频。该项目采用先进的3D混合先验技术和双分支运动-VAE(变分自编码器)来实现高质量的视觉效果和自然同步对话。

太惊艳!字节跳动 INFP,让虚拟对话 “活” 起来啦

INFP是字节跳动研发的一种全新的音频驱动交互式头部生成框架,它能根据双轨对话音频实时生成动态虚拟人物头像,支持多语言、唱歌模式和多种场景。研究显示其在音频-唇同步性、身份保留和动作多样性等方面表现优异。

Video Depth Anything来了!字节开源首款10分钟级长视频深度估计模型,性能SOTA

Video Depth Anything 工作解决了单目深度估计在视频领域的时序一致性问题,融合时空头、时域一致性损失函数和关键帧推理策略,实现精度、速度及稳定性三者的平衡。