视觉特征归档

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

下午2时 2024/12/18 作者机器之心

本文介绍了一种基于生成式视觉编码器Florence-2的多模态大语言模型Florence-VL，通过创新的深度广度融合策略结合多层次、多任务视觉特征，实现了在多种多模态基准任务上的卓越性能。