多模态训练后模型能力雪崩,上海AI Lab全面探索MLLM偏好对齐与模态融合
上海交大团队通过实验发现多模态数据对语言质量的影响有限,提出OmniAlign-V数据构建Pipeline,包含高质量的多模态数据,并在多个基准测试中验证了其有效性。
上海交大团队通过实验发现多模态数据对语言质量的影响有限,提出OmniAlign-V数据构建Pipeline,包含高质量的多模态数据,并在多个基准测试中验证了其有效性。
ViDoRAG 是一款专注于视觉文档的开源 RAG 系统,由阿里巴巴通义实验室联合中科大、上海交大推出。它通过多模态混合检索和多智能体迭代推理解决传统 RAG 方法在处理复杂视觉文档时的信息关联性不足和推理能力有限等问题。