社区供稿 | 阿里国际 Ovis2 系列模型开源: 多模态大语言模型的新突破

Ovis2是阿里巴巴提出的新型多模态大模型架构,显著提升了小规模和大规模模型的能力密度,并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能,并在多个数学推理榜单中排名前列。

北航推出TinyLLaVA-Video,有限计算资源优于部分7B模型,代码、模型、训练数据全开源

北京航空航天大学团队发布小尺寸简易视频理解框架TinyLLaVA-Video,其参数量不超过4B,在多个视频理解基准上优于7B以上模型。该项目开源模型权重、训练代码和数据集,并支持模块化设计和自定义训练策略,降低研究门槛。