树莓派上都能运行的最强视觉小模型Moondream迎来更新,目光检测成为最大亮点

近日,曾在温哥华NIPS大会获得广泛关注的最强开源微型视觉理解模型(VLM)Moondream迎来更新,项目提供两个版本:2B 和0.5B 模型,其中0.5B版本号称全球最小的视觉语言模型。该模型能够在各类设备上高效运行,实现图像理解、文本识别、目标检测、定位等多种功能。其中,2B版本性能接近QWen2-VL 2B,但是它需要的内存却只有4.3G,而0.5B要求就更低了。它不仅能够在个人电脑就可运行,甚至手机或者一些边缘设备上(如树莓派)也能够运行,并且已适配webGPU,这意味着浏览器里也能高效运行。

本次团队带来四大关键更新:
  1. 结构化数据输出:支持 JSON 、XML 、Markdown等多种格式
2.优化 OCR 文本识别能力
3.创新性引入目光检测(Gaze Detection)技术
4.全面提升性能基准测试指标

尤其是目光检测功能堪称亮点,可精准分析人们的视线焦点,在自动驾驶、零售分析、教育等领域具有巨大潜力。这一技术在 GazeFollow 基准测试中达到 0.103 的平均水平,接近人类表现。

该功能引来很多人兴趣,已被玩出了花。感兴趣的读者可以直接体验:https://huggingface.co/spaces/moondream/gaze-demo

更多体验:https://moondream.ai/playground

不得不说,Moondream表现非常惊艳,吸引了大量开发者目光,想必很快就会有很多基于该模型的有趣应用出来,但遗憾的是目前并不支持中文提示词,希望国内开发者能够多做贡献,造福大家。
项目地址:https://github.com/vikhyat/moondream

(文:AI工程化)

欢迎分享

发表评论