阿里巴巴达摩院发布了专注于图像和视频理解的多模态基础模型:VideoLLaMA 3

阿里巴巴达摩院发布了专注于图像和视频理解的多模态基础模型:VideoLLaMA3,一个智能看视频助手,可以看懂视频内容、理解图片、能对话。基于最新的Qwen2.5架构,支持多帧视频理解。

参考文献:
[1] https://github.com/DAMO-NLP-SG/VideoLLaMA3


(文:NLP工程化)

欢迎分享

发表评论