Caption-Contrastive归档

跨模态大升级！少量数据高效微调，LLM教会CLIP玩转复杂文本

下午1时 2024/11/27 作者机器之心

CLIP 模型通过对比学习实现了视觉与文本的对齐。然而其文本处理能力有限，研究团队提出 LLM2CLIP 方法利用大语言模型提升 CLIP 的多模态表示学习能力，显著提升了 CLIP 在中文检索任务中的表现，并在复杂视觉推理中提升了 LLaVA 模型的表现。