文本提示、空间映射?任意条件组合都拿下!UniCombine:统一的多条件组合式生成框架

UniCombine 是一种基于 DiT 的多条件可控生成框架,能够处理任意条件组合。它在多种多条件生成任务上达到了最先进的性能,并且构建了首个针对多条件组合式生成任务设计的数据集 SubjectSpatial200K。

AI音频最新发展:Anything万物生成音频

香港科技大学开发的 AudioX 机器学习模型能够根据用户的个性化输入生成独一无二的音频和音乐作品,包括文本、视频、图像等多模态数据,具有强大的跨模态学习能力,并能处理复杂的音频生成任务如音乐补全、修复等。

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

近日,大连理工大学与莫纳什大学的研究团队提出VLIPP框架,通过引入物理规律提升视频生成的物理真实性。论文指出视频扩散模型在物理场景下表现不佳的原因,并提出两阶段方法,利用视觉语言模型预测运动路径,再用细粒度的视频扩散模型生成符合物理规则的视频。

文本到动作生成最强模型出炉!动作可精确编辑,北大AI团队CVPR 2025新论文

北京大学的研究人员提出了一种名为MotionReFit的新模型,它可以根据用户的文本指令生成逼真的人体动作。该模型通过引入MotionCutMix数据增强技术及带有动作协调器的自回归扩散模型来实现这一目标,支持空间和时间上的动作编辑,无需特定的身体部位规范。

ICLR 2025 扩散模型奖励微调新突破!Nabla-GFlowNet让多样性与效率兼得

本文介绍了一种基于生成流网络的扩散模型奖励微调方法Nabla-GFlowNet,该方法能够在快速收敛的同时保持生成样本的多样性和先验特性。通过在Stable Diffusion上实验验证了其有效性。