谢赛宁:Thinking in Space

纽约大学谢赛宁团队提出研究新视角:视频空间推理。他们构建了一个全新的基准,涵盖多种视觉-空间智能任务,并通过自动化生成的自标注数据测试AI表现。结果显示当前MLLMs在视觉-空间智能上表现不佳,但仍表现出色。

Florence-VL来了!使用生成式视觉编码器,重新定义多模态大语言模型视觉信息

本文介绍了一种基于生成式视觉编码器Florence-2的多模态大语言模型Florence-VL,通过创新的深度广度融合策略结合多层次、多任务视觉特征,实现了在多种多模态基准任务上的卓越性能。