自回归+扩散!Salesforce开源统一多模态模型BLIP3-o,图像理解与生成全拿下
OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架,研究者对比了三种设计选择,并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。
OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架,研究者对比了三种设计选择,并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。
南洋理工大学 S-Lab 与普渡大学提出 CFG-Zero* 方法,改进 Flow Matching 模型的 Classifier-Free Guidance,提升生成图像/视频的质量和一致性。
本文提出了一种基于GoalPoint的端到端生成式方法GoalFlow,通过引入密集的GoalPoint词汇表和高效的扩散模型FlowMatching来生成高质量多模态轨迹,在PDMS上达到了90.3%的最佳性能。