ICLR 2025 扩散模型奖励微调新突破!Nabla-GFlowNet让多样性与效率兼得
本文介绍了一种基于生成流网络的扩散模型奖励微调方法Nabla-GFlowNet,该方法能够在快速收敛的同时保持生成样本的多样性和先验特性。通过在Stable Diffusion上实验验证了其有效性。
本文介绍了一种基于生成流网络的扩散模型奖励微调方法Nabla-GFlowNet,该方法能够在快速收敛的同时保持生成样本的多样性和先验特性。通过在Stable Diffusion上实验验证了其有效性。
香港中文大学(深圳)开源的Soundwave语音理解模型仅需1万小时训练数据,即达到Qwen2-Audio同等性能,具备智能对话和复杂语音交互能力。
Sitcom-Crafter 是一个基于剧情驱动的 3D 人类动作生成系统,由北京航空航天大学、香港中文大学(深圳)、悉尼科技大学和中山大学等高校联合开发。它能够根据用户提供的长剧情指导生成多样化且物理真实的动作,支持多种交互场景,并通过增强模块优化动作的流畅性、自然性和同步性。
西北工业大学和香港中文大学提出新型AI音乐生成模型DiffRhythm,在10秒内生成4分45秒完整歌曲,支持本地部署,仅需8G显存。其简洁高效的全diffusion架构只需歌词和风格提示即可创作,速度和便捷性得到提升。
专注AIGC领域的专业社区分享了香港中文大学(深圳)和深圳市大数据研究院开源的医疗领域大模型——华佗GPT-o1。该模型采用高质量医学数据集进行训练,并通过两阶段训练模式提升推理准确性和可靠性。