自回归+扩散!Salesforce开源统一多模态模型BLIP3-o,图像理解与生成全拿下
OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架,研究者对比了三种设计选择,并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。
OpenAI的GPT-4o展示了顶级图像理解与生成能力。BLIP3-o采用自回归+扩散框架,研究者对比了三种设计选择,并最终选择了CLIP + Flow Matching方案和顺序训练策略构建BLIP3-o模型。
AI视频生成模型通义万相2.1成功制作出多个复杂汉字、英文单词以及包括‘摸鱼一天 快乐无边’、中世纪真人写实风动画等在内的多种风格的视频内容。通过采用VAE与DiT架构协同发力、超长序列训练上的突破和数据与评估双轮驱动的技术创新,实现了对无限长1080P视频的高效编解码,并在视觉质量和运动质量方面提升模型性能。