o1的风又吹到多模态,直接吹翻了GPT-4o-mini

开源项目LLaVA-o1展示了其在自主多阶段推理方面的优越性,超过了一些大型甚至封闭源代码的模型,在复杂任务中的性能显著提高。它包括总结、图像解释、逻辑推理和结论生成四个关键阶段,并采用了结构化推理框架和阶段性束搜索策略来增强其推理能力。