阿里巴巴达摩院发布了专注于图像和视频理解的多模态基础模型：VideoLLaMA 3

2025年1月24日16时作者 NLP工程化

阿里巴巴达摩院发布了专注于图像和视频理解的多模态基础模型：VideoLLaMA3，一个智能看视频助手，可以看懂视频内容、理解图片、能对话。基于最新的Qwen2.5架构，支持多帧视频理解。

参考文献：
[1] https://github.com/DAMO-NLP-SG/VideoLLaMA3

（文：NLP工程化）