苹果开源的视觉语言模型FastVLM,最大特点就是处理高分辨率图像提速很多。
最关键的一点就是苹果开发的混合视觉编码器FastViTHD。
视觉语言模型之前推理都很慢,这也算是解决了问题。
提速=降本增效。
如果有些模型的效果优化非常困难的话,提速也是个好思路,希望各大厂猛着点优化。
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)

项目简介
FastVLM是苹果开发的高效视觉语言模型,优化高分辨率图像处理与文本理解的性能与延迟。采用新型混合视觉编码器FastViTHD,FastVLM通过减少视觉token数量和降低编码时间,实现3.2倍的首次token生成速度提升,同时保持与传统ViT模型相似的精度。在LLaVA-1.5设置下,FastVLM在SeedBench、MMMU和DocVQA等关键基准测试中表现优异,相较于LLaVa-OneVision,视觉编码器尺寸缩小3.4倍,速度提升85倍。代码与模型已开源,适用于多种视觉语言任务。
DEMO
技术特点
新型混合视觉编码器(FastViTHD):结合卷积和Transformer架构,优化高分辨率图像处理,生成更少视觉token(比ViT-L/14少16倍),显著降低编码延迟。
高效分辨率-延迟-精度权衡:通过直接调整输入图像分辨率,简化模型设计,无需额外token剪枝,3.2倍提升首次token生成速度(TTFT),精度与传统ViT相当。
多尺度特征提取:采用深度卷积融合多尺度视觉特征,提升文本密集任务(如DocVQA、ChartQA)的性能。
优化的五阶段架构:包含RepMixer和多头自注意力模块,参数量仅125.1M(比ViT-L/14小3.4倍),在高分辨率下保持低延迟。
灵活的训练策略:支持LLaVA-1.5两阶段或三阶段训练,结合大规模数据集(如DataCompDR-1B和12.5M指令调优数据集),提升模型泛化能力。
动态分辨率支持:在极高分辨率(如2048×2048)下使用2×2瓦片策略,优于传统多瓦片方法,兼顾精度与效率。
硬件优化:M1 Macbook Pro实测性能,相比SigLIP-SO400M和ConvNeXT,速度分别提升3.2倍和2.3倍,尺寸缩小3.6倍和1.7倍。
项目链接
https://github.com/apple/ml-fastvlm
关注「开源AI项目落地」公众号
(文:开源AI项目落地)