10万+,超大规模人手交互视频数据集!面向可泛化机器人操作|CVPR 2025

香港中文大学(深圳)发布TASTE-Rob数据集,包含100,856个精准匹配语言指令的第一视角交互视频。该团队提出三阶段视频生成流程优化手部姿态,显著提升视频真实感和机器人操作准确度。

ICLR 2025 扩散模型奖励微调新突破!Nabla-GFlowNet让多样性与效率兼得

本文介绍了一种基于生成流网络的扩散模型奖励微调方法Nabla-GFlowNet,该方法能够在快速收敛的同时保持生成样本的多样性和先验特性。通过在Stable Diffusion上实验验证了其有效性。

3D动画革命!北航团队破解交互难题,一键生成影视级打斗场面

Sitcom-Crafter 是一个基于剧情驱动的 3D 人类动作生成系统,由北京航空航天大学、香港中文大学(深圳)、悉尼科技大学和中山大学等高校联合开发。它能够根据用户提供的长剧情指导生成多样化且物理真实的动作,支持多种交互场景,并通过增强模块优化动作的流畅性、自然性和同步性。

10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一

西北工业大学和香港中文大学提出新型AI音乐生成模型DiffRhythm,在10秒内生成4分45秒完整歌曲,支持本地部署,仅需8G显存。其简洁高效的全diffusion架构只需歌词和风格提示即可创作,速度和便捷性得到提升。

医疗复杂推理开源大模型——华佗GPT-o1

专注AIGC领域的专业社区分享了香港中文大学(深圳)和深圳市大数据研究院开源的医疗领域大模型——华佗GPT-o1。该模型采用高质量医学数据集进行训练,并通过两阶段训练模式提升推理准确性和可靠性。