视频理解归档

Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7

下午4时 2025/05/07 作者新智元

谷歌发布升级版Gemini 2.5 Pro，横扫文本、视觉和WebDev Arena基准，编程能力超越Claude 3.7。新版模型支持代码转换、编辑及复杂的AI智能体工作流，引发开发者广泛关注。

上午11时 2025/05/07 作者机器之心

Google DeepMind的Gemini 2.5 Pro更新提升了编程能力和多模态推理功能，可构建Web应用、游戏和模拟程序，并根据自然图像生成代码。

下午4时 2025/03/01 作者 PaperWeekly

落后于闭源模型。部分专注于长上下文场景的开源模型在短上下文场景（如短视频或静态图像）中又表现不佳。

下午2时 2025/02/22 作者 Hugging Face

Ovis2是阿里巴巴提出的新型多模态大模型架构，显著提升了小规模和大规模模型的能力密度，并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能，并在多个数学推理榜单中排名前列。

下午4时 2025/02/10 作者机器之心

北京航空航天大学团队发布小尺寸简易视频理解框架TinyLLaVA-Video，其参数量不超过4B，在多个视频理解基准上优于7B以上模型。该项目开源模型权重、训练代码和数据集，并支持模块化设计和自定义训练策略，降低研究门槛。

下午12时 2025/02/06 作者机器之心

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000

下午4时 2025/01/24 作者 NLP工程化

阿里巴巴达摩院发布VideoLLaMA3多模态基础模型，支持看懂视频内容、理解图片并能对话，基于Qwen2.5架构。

下午4时 2025/01/17 作者机器之心

Uni-AdaFocus 是一个通用的高效视频理解框架，通过降低时间、空间和样本冗余性实现了统一建模，并已在多个数据集上验证了其有效性。