视觉生成
DanceGRPO:首个统一视觉生成的强化学习框架
本文介绍了一种名为 DanceGRPO 的强化学习框架,在视觉生成任务中实现了统一优化。该方法通过 GRPO 策略在 Diffusion 和 Rectified Flow 模型上进行了测试,并覆盖了文本到图像、视频等多种任务,展示了其在不同基础模型上的有效性及对多种奖励模型的适应性。
港大与字节提出TokenBridge:离散和连续token优点我都要!|自回归视觉生成模型解读系列
模简单的优点,又可以保持连续 token 的强表示能力。
>>
加入极市CV技术交流群,走在计算机视
迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源
本文由 NUS ShowLab 指导完成,首次系统性研究长上下文视频生成。提出帧自回归模型FAR,有效解决长视频训练计算挑战,显著提升长时序一致性。
让奥特曼直呼“天才”的o3 和 o4-mini,被曝捏造事实问题严重!拓展强化学习、图像思维链等亮点成陪衬?
之前思考更长时间而训练。
这些推理模型首次实现了自主调用并整合 ChatGPT 内的全量工具:包括网
DeepSeek多模态能力起底!一探究竟Janus 系列模型:解耦统一多模态理解和生成模型的视觉编码
解统一架构代表作 Janus 以及后续扩大版本 Janus-Pro。
>>加入极市CV技术交流群,走