跨模态大升级!少量数据高效微调,LLM教会CLIP玩转复杂文本
CLIP 模型通过对比学习实现了视觉与文本的对齐。然而其文本处理能力有限,研究团队提出 LLM2CLIP 方法利用大语言模型提升 CLIP 的多模态表示学习能力,显著提升了 CLIP 在中文检索任务中的表现,并在复杂视觉推理中提升了 LLaVA 模型的表现。
CLIP 模型通过对比学习实现了视觉与文本的对齐。然而其文本处理能力有限,研究团队提出 LLM2CLIP 方法利用大语言模型提升 CLIP 的多模态表示学习能力,显著提升了 CLIP 在中文检索任务中的表现,并在复杂视觉推理中提升了 LLaVA 模型的表现。