Awesome-Multimodal-LLM-for-Math-STEM:多模态LLM在数学等集合
Awesome-Multimodal-LLM-for-Math-STEM汇集了最新的数学/STEM/编程领域的研究成果,旨在促进相关领域的发展。
Awesome-Multimodal-LLM-for-Math-STEM汇集了最新的数学/STEM/编程领域的研究成果,旨在促进相关领域的发展。
纽约大学谢赛宁团队提出研究新视角:视频空间推理。他们构建了一个全新的基准,涵盖多种视觉-空间智能任务,并通过自动化生成的自标注数据测试AI表现。结果显示当前MLLMs在视觉-空间智能上表现不佳,但仍表现出色。
本文介绍了一种基于生成式视觉编码器Florence-2的多模态大语言模型Florence-VL,通过创新的深度广度融合策略结合多层次、多任务视觉特征,实现了在多种多模态基准任务上的卓越性能。