英伟达太猛了,总是搞出一些比较牛的模型。
不过它开源的目的可不是把做模型的厂家去干掉。
一方面是秀肌肉,一方面是给AI发展提供一些基础和方向。
当然,最重要的是,你懂得。
你虽然免费用了英伟达开源的模型,但是你服务器得用它的吧,钱不就乖乖付了吗。
今天给大家推荐的是英伟达开源的一系列视觉语言模型NVILA,模型是真的强。
应用方面其实也很多,现在AI应用其实就是要在这种基础模型的能力上做一些场景化的功能。
各种的自动化视觉检测、智慧园区、自媒体等都可能会用得到。
这论文作者,一眼望去,几乎全是中国人。该说不说,中国人在AI方向的研发是真猛啊,各种牛的项目里,都是很多中国人的影子。
卷吧,一起卷。
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)
项目简介
NVILA是由NVIDIA等机构的研究人员共同开发的一系列开源视觉语言模型。优化了模型的效率和准确性,通过“先扩展后压缩”的策略,NVILA能够在处理高分辨率图像和长视频时保持高效。从训练、微调到部署阶段,显著降低了成本和资源消耗。NVILA在多个图像和视频基准测试中展现了超强的准确性,同时在训练成本、微调内存使用、预填充延迟和解码延迟等方面实现了显著的性能提升。NVILA还拓展了新的应用能力,如时间定位、机器人导航和医学成像等。
DEMO
1、视频理解
提示词:详细阐述视频中的视觉元素和叙事元素。
回答:视频展示了一个人的双手在白色台面上操作的画面。此人正在折叠一块有着蓝白相间方格图案的布料,正将这块布料折叠成更小、更紧凑的形状。此人的指甲涂成了红色,并且穿着一件黑红相间的衣服。台面上还放着一把尺子和一支铅笔,这表明在操作过程中涉及测量以及对精准度的要求。
2、情境学习
用户:这幅图中有什么不寻常的地方?
助手:在图中,有几只鹿正在横穿马路,而此时汽车正从后面驶来。这个场景不同寻常,因为鹿在离行驶车辆如此近的地方横穿马路并不常见。通常情况下,鹿的穿行区域是在指定地点或者野生动物通道那里,这些地方旨在将鹿与车辆发生事故的风险降至最低。在这幅图呈现的场景里,鹿似乎是在没有任何此类保护或引导的情况下横穿马路的,这增加了与后面驶来的车辆发生事故或碰撞的风险。
用户:司机应该对这些动物按喇叭吗?为什么?
助手:一般来说,当动物正在横穿马路时,即便它们是鹿,也不建议司机按喇叭。按喇叭可能会惊吓到动物,使它们惊慌失措,这可能会给动物和相关司机都带来危险情况。相反,司机应该保持耐心,等待动物安全穿过马路后再继续前行。如有必要,他们可以减速或者停车,以确保动物有足够的时间离开马路,然后再继续自己的行程。
3、多图像推理
问:照片 1,上午 10 点 30 分:<图 1>
照片 2,中午 12 点 45 分:< 图 2>
照片 3,下午 3 点 45 分:< 图 3> 我午餐吃了什么,以及是几点吃的?
回答:我在中午 12 点 45 分吃了一个三明治作为午餐。
技术特点
模型架构
-
“Scale-then-Compress”策略:先提升视觉输入的分辨率保留细节,再压缩视觉令牌提高效率,使NVILA能高效处理高分辨率图像和长视频。
-
Dynamic-S2技术:自适应处理不同长宽比图像,避免失真,提升文本密集型任务准确性。
-
时空令牌压缩:空间上通过池化和额外预训练减少令牌损失,时间上用时间平均法压缩视频帧,保留重要信息。
全生命周期效率优化
-
训练阶段:
1.数据集修剪:DeltaLoss方法筛选有用数据,减少训练量,提速2倍且保持性能。
2.FP8混合精度训练:利用FP8提升吞吐量,不启用GC时提速2倍,启用时也有1.2倍提升。
-
微调阶段:ViT和LLM不同学习率,LayerNorm微调高效节能,24GB内存下快速适配下游任务。
-
部署阶段:推理引擎量化技术,预填充阶段W8A8量化视觉塔降延迟,解码阶段W4A16量化LLM主干提吞吐量。
性能与效率平衡
-
准确性:在多基准测试中超越开源和专有模型,如AI2D基准测试8B模型准确率83.0%,Video-MME仅8B参数性能比肩GPT-4o mini。
-
效率:训练成本降4.5倍,微调内存用降3.4倍,预填充延迟降1.6-2.2倍,解码延迟降1.2-2.8倍。
新能力拓展
-
时间定位:ActivityNet测试中大幅超基线模型,展现视频时间定位能力。
-
机器人导航:实时部署,多帧输入处理能力强,单笔记本GPU上1Hz运行,助力机器人导航。
-
医学多模态:NVILA-M3整合专家模型,医学任务性能显著提升,超现有SOTA模型9%,推动医疗领域发展。
项目链接
https://github.com/NVlabs/VILA
试用链接
https://vila.mit.edu/
论文链接
https://arxiv.org/abs/2412.04468
关注「开源AI项目落地」公众号
(文:开源AI项目落地)