Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息 下午2时 2024/12/18 作者 机器之心 本文介绍了一种基于生成式视觉编码器Florence-2的多模态大语言模型Florence-VL,通过创新的深度广度融合策略结合多层次、多任务视觉特征,实现了在多种多模态基准任务上的卓越性能。