SigLIP
2.7M 样本即可同时支持图像理解、生成等多种任务!北大团队开源统一大模型UniWorld-V1
一个整合高分辨率对比语义编码器与多模态大模型的统一生成框架,仅用 2.7M 样本即支持图像理解、生成、编辑与感知等多种任务。
可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
腾讯混元与InstantX合作推出开源版角色生成插件InstantCharacter,基于DiTs架构实现高保真度和个性化角色创作,克服了传统方法的限制。
高中辍学天才、谷歌ViT三大将集体跳槽OpenAI!组队Sora决战AGI
OpenAI挖走DeepMind和Midjourney多名顶级工程师,涉及多模态人工智能研究。其中三人曾共同发表多篇顶尖论文,包括Vision Transformer (ViT),提出了一种新的图像识别方法。