3D动画革命!北航团队破解交互难题,一键生成影视级打斗场面
Sitcom-Crafter 是一个基于剧情驱动的 3D 人类动作生成系统,由北京航空航天大学、香港中文大学(深圳)、悉尼科技大学和中山大学等高校联合开发。它能够根据用户提供的长剧情指导生成多样化且物理真实的动作,支持多种交互场景,并通过增强模块优化动作的流畅性、自然性和同步性。
Sitcom-Crafter 是一个基于剧情驱动的 3D 人类动作生成系统,由北京航空航天大学、香港中文大学(深圳)、悉尼科技大学和中山大学等高校联合开发。它能够根据用户提供的长剧情指导生成多样化且物理真实的动作,支持多种交互场景,并通过增强模块优化动作的流畅性、自然性和同步性。
NotaGen 是首个针对古典音乐交响乐的 AI 音乐生成模型,来自中央音乐学院、清华和北航的开发人员宣布其开源。模型涵盖基础版及增强版NotaGen-X,并在专业数据集上进行了微调,实现高度可控性和专业性,提升了古典音乐生成质量。
本文介绍了一篇关于 MIDI 模型的研究论文,MIDI 能够从单张图像生成高几何质量的组合式 3D 场景。该模型在多个数据集上的表现超越现有方法,并有望应用于建筑设计、虚拟现实等多个领域。
第五届对抗机器学习Workshop将在2025年6月的CVPR会议上举行,主题为’基础模型+X’。研讨会旨在探讨基础模型及其特定领域应用中的鲁棒性挑战,并设立最佳论文奖等奖项吸引投稿。
北京航空航天大学团队发布小尺寸简易视频理解框架TinyLLaVA-Video,其参数量不超过4B,在多个视频理解基准上优于7B以上模型。该项目开源模型权重、训练代码和数据集,并支持模块化设计和自定义训练策略,降低研究门槛。
本文介绍了多模态领域基于Next Token Prediction的最新进展,包括Tokenization技术、模型架构设计、训练方法与推理策略等,并提出了四个亟待解决的挑战。