GitHub 上 Awesome-Large-Multimodal-Reasoning-Models 这个开源项目,为我们提供了一个完整的多模态推理模型发展全景图。
来自哈尔滨工业大学(深圳)研究人员,通过综述分析了 550 多篇论文后,构建了从基础模块到高级推理的四阶段发展路线图,清晰展示了多模态推理模型从感知驱动到语言中心再到原生推理的完整演进历程。主要内容:
-
系统梳理多模态推理模型的四阶段发展历程(感知驱动、语言中心短推理、语言中心长推理、原生多模态推理); -
全面收集相关数据集和基准测试,覆盖多模态理解、生成、推理和规划四大类; -
分析 OpenAI-o3 和 o4-mini 等前沿模型的实验性能和能力边界; -
探讨原生多模态推理模型(N-LMRMs)的未来发展和技术前景; -
提供详尽的模型表格比较,包括不同阶段的代表性工作及其特点; -
配有直观的图表说明,帮助我们更好理解各类模型的演进关系。
这份资料总结了相当全面,能很好帮助我们理解整个 AI 大模型发展路线,值得一看。




参考文献:
[1] GitHub:https://github.com/HITsz-TMG/Awesome-Large-Multimodal-Reasoning-Models
知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。
(文:NLP工程化)