o1的风又吹到多模态,直接吹翻了GPT-4o-mini

开源项目LLaVA-o1展示了其在自主多阶段推理方面的优越性,超过了一些大型甚至封闭源代码的模型,在复杂任务中的性能显著提高。它包括总结、图像解释、逻辑推理和结论生成四个关键阶段,并采用了结构化推理框架和阶段性束搜索策略来增强其推理能力。

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

Mistral AI发布了自家首个多模态大模型Pixtral 12B,并详细介绍了其技术细节。Pixtral采用全新的视觉编码器,支持不同分辨率和纵横比的图像输入,性能优于多个开源模型和闭源模型,在多种实际场景下的评估中表现出色。