GenEval
连续Token助力文本生成图像迈向新高度!Kaiming团队提出Fluid:MS-COCO上实现6.16 FID
比基于离散 token 的模型实现更好的视觉质量。
>>
加入极市CV技术交流群,走在计算机视觉的最
一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成
新智元报道编辑:LRS 好困。研究提出SANA-Sprint,一种高效的蒸馏扩散模型用于超快速文本到图像生成,仅需1-4步即可在H100上实现7.59 FID和0.74 GenEval的先进性能,并支持实时交互式生成。
DeepSeek官方开源多模态视觉理解和生成模型,谁说DeepSeek只能问答了?!
DeepSeek团队发布的新多模态模型Janus-Pro通过优化训练策略、扩展数据集和扩大模型规模提升了性能,实现高质量的文本到图像生成及多模态理解。
图像生成推理大模型,港中文北大等联手破解画质提升难题
来自港中文、北大和上海AI Lab的研究团队将思维链(CoT)与生成模型结合,显著提高了自回归图像生成的质量,并提出了潜力评估奖励模型(PARM)及其增强版本(PARM++),进一步优化了图像生成质量。
图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和inference scaling新范式!
香港中文大学、北京大学和上海AI Lab的研究者提出了一种结合思维链推理的新方法来提升自回归图像生成的质量和文本一致性,显著提高了图像生成的性能。
刚刚!DeepSeek 再发新模型Janus-Pro 7B,统一多模态理解与生成
DeepSeek团队发布创新型多模态框架Janus-Pro,支持384×384图像输入,表现超越现有统一模型,在GenEval和DPG-Bench测试中胜过DALL-E 3和Stable Diffusion。
突发!DeepSeek除夕搞炸裂,开源多模态AI模型发布,仅128颗英伟达A100训练1周,性能碾压美国企业|
1月28日凌晨,人工智能社区Hugging Face发布了开源多模态AI模型Janus-Pro。它在多个基准测试中击败了OpenAI和Stable Diffusion,展示了强大的文本到图像生成能力。