扩散模型归档 - 第3页共11页

DiffMoE：动态Token选择助力扩散模型性能飞跃，快手&清华团队打造视觉生成新标杆！

2025年5月16日11时作者机器之心

本文介绍清华大学与快手可灵团队合作的DiffMoE研究，通过动态token选择和全局token池设计提升扩散模型效率。论文在ImageNet分类图像生成任务中仅用4.58亿参数即超越6.75亿参数的Dense-DiT-XL模型。

2025年5月13日11时作者量子位

用AI无限扩展《我的世界》，用户通过鼠标键盘即可自由探索、创作高质量虚拟内容，支持8大Minecraft场景生成。Matrix-Game模型在视觉质量、控制能力等方面超越现有开源基线。

2025年5月11日16时作者量子位

ModelScope团队提出Nexus-Gen统一模型，融合MLMs和扩散模型能力，实现图像生成、理解与编辑。其技术细节包括预填充自回归策略和统一的数据格式定义。模型已在多个任务上取得GPT-4o级效果，并开源了训练数据、工程框架及论文。

2025年5月6日23时作者极市干货

256 生成上实现了最佳 (SOTA) 性能，FID得分为1.35，同时在短短64个epoch内就达

2025年5月3日16时作者机器之心

本文提出ID-Patch方案，用于解决多人图像生成中的身份特征泄露问题。通过ID Patch将身份特征转化为小尺寸RGB图像块，精确指定每个人的位置，并与文本提示共同输入增强人物面部真实性。实验结果显示其在身份还原和位置匹配上表现优秀，且生成效率快。

2025年4月25日14时作者小兵的AI视界

上海 AI Lab 开源的 Aether 项目通过三维时空建模和多模态融合技术，实现了生成式世界模型在虚拟数据上的出色表现，并具备对真实世界的零样本泛化能力。

2025年4月24日23时作者量子位

达摩院在ICLR 2025提出了动态架构DyDiT，通过智能资源分配将DiT模型的推理算力削减51%，生成速度提升1.73倍，FID指标几乎无损，并且仅需3%的微调成本。

2025年4月17日23时作者极市干货

UniCombine 是一种基于 DiT 的多条件可控生成框架，能够处理任意条件组合。它在多种多条件生成任务上达到了最先进的性能，并且构建了首个针对多条件组合式生成任务设计的数据集 SubjectSpatial200K。