罕见！苹果开源VLM视觉语言模型，首令牌速度提高85倍，以后的AI服务一定会越来越便宜。

苹果开源的视觉语言模型FastVLM，最大特点就是处理高分辨率图像提速很多。

最关键的一点就是苹果开发的混合视觉编码器FastViTHD。

视觉语言模型之前推理都很慢，这也算是解决了问题。

提速=降本增效。

如果有些模型的效果优化非常困难的话，提速也是个好思路，希望各大厂猛着点优化。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

FastVLM是苹果开发的高效视觉语言模型，优化高分辨率图像处理与文本理解的性能与延迟。采用新型混合视觉编码器FastViTHD，FastVLM通过减少视觉token数量和降低编码时间，实现3.2倍的首次token生成速度提升，同时保持与传统ViT模型相似的精度。在LLaVA-1.5设置下，FastVLM在SeedBench、MMMU和DocVQA等关键基准测试中表现优异，相较于LLaVa-OneVision，视觉编码器尺寸缩小3.4倍，速度提升85倍。代码与模型已开源，适用于多种视觉语言任务。

DEMO

技术特点

新型混合视觉编码器（FastViTHD）：结合卷积和Transformer架构，优化高分辨率图像处理，生成更少视觉token（比ViT-L/14少16倍），显著降低编码延迟。

高效分辨率-延迟-精度权衡：通过直接调整输入图像分辨率，简化模型设计，无需额外token剪枝，3.2倍提升首次token生成速度（TTFT），精度与传统ViT相当。

多尺度特征提取：采用深度卷积融合多尺度视觉特征，提升文本密集任务（如DocVQA、ChartQA）的性能。

优化的五阶段架构：包含RepMixer和多头自注意力模块，参数量仅125.1M（比ViT-L/14小3.4倍），在高分辨率下保持低延迟。

灵活的训练策略：支持LLaVA-1.5两阶段或三阶段训练，结合大规模数据集（如DataCompDR-1B和12.5M指令调优数据集），提升模型泛化能力。

动态分辨率支持：在极高分辨率（如2048×2048）下使用2×2瓦片策略，优于传统多瓦片方法，兼顾精度与效率。

硬件优化：M1 Macbook Pro实测性能，相比SigLIP-SO400M和ConvNeXT，速度分别提升3.2倍和2.3倍，尺寸缩小3.6倍和1.7倍。

项目链接

https://github.com/apple/ml-fastvlm

关注「开源AI项目落地」公众号

（文：开源AI项目落地）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复