近日,曾在温哥华NIPS大会获得广泛关注的最强开源微型视觉理解模型(VLM)Moondream迎来更新,项目提供两个版本:2B 和0.5B 模型,其中0.5B版本号称全球最小的视觉语言模型。该模型能够在各类设备上高效运行,实现图像理解、文本识别、目标检测、定位等多种功能。其中,2B版本性能接近QWen2-VL 2B,但是它需要的内存却只有4.3G,而0.5B要求就更低了。它不仅能够在个人电脑就可运行,甚至手机或者一些边缘设备上(如树莓派)也能够运行,并且已适配webGPU,这意味着浏览器里也能高效运行。
-
结构化数据输出:支持 JSON 、XML 、Markdown等多种格式
尤其是目光检测功能堪称亮点,可精准分析人们的视线焦点,在自动驾驶、零售分析、教育等领域具有巨大潜力。这一技术在 GazeFollow 基准测试中达到 0.103 的平均水平,接近人类表现。
该功能引来很多人兴趣,已被玩出了花。感兴趣的读者可以直接体验:https://huggingface.co/spaces/moondream/gaze-demo
更多体验:https://moondream.ai/playground
(文:AI工程化)