阿里巴巴达摩院发布了专注于图像和视频理解的多模态基础模型:VideoLLaMA 3 下午4时 2025/01/24 作者 NLP工程化 阿里巴巴达摩院发布VideoLLaMA3多模态基础模型,支持看懂视频内容、理解图片并能对话,基于Qwen2.5架构。