超越ControlNet!复旦联合腾讯优图提出AI生图新框架,解决多条件生成难题

复旦大学和腾讯优图实验室提出PixelPonder,一种新的多视觉控制框架。它解决了当前方法在组合多个异构控制信号时面临的挑战,显著提高图像生成的可控性和文本一致性。

从零搭一套可复现、可教学、可观察的RL for VLM训练流程,我们试了试

MAYE 是一个从零实现的 RL for VLM 框架与标准化评估方案,旨在提升透明度和可复现性。它通过简化架构、提供标准评估体系及实证研究支持,帮助学者更清晰理解模型训练过程及其行为变化。

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

MagicMotion提出了一种新的图像到视频生成框架,能够在指定的轨迹条件下精确控制物体运动。该方法构建了大规模的轨迹数据集,并引入了隐分割损失以提高对象形状感知能力。实验结果显示,MagicMotion在多种指标上优于现有方法,展示了卓越的性能。

CVPR 2025复旦&微软开源StableAnimator: 首个端到端ID一致性人类视频生成,Github Star破千

复旦大学吴祖煊副教授团队提出StableAnimator框架,通过全局内容感知面部编码器、分布感知的身份适配器及基于HJB方程的面部优化,显著提高人像动画生成质量与一致性。