树莓派上都能运行的最强视觉小模型Moondream迎来更新，目光检测成为最大亮点

近日，曾在温哥华NIPS大会获得广泛关注的最强开源微型视觉理解模型（VLM）Moondream迎来更新，项目提供两个版本：2B 和0.5B 模型，其中0.5B版本号称全球最小的视觉语言模型。该模型能够在各类设备上高效运行，实现图像理解、文本识别、目标检测、定位等多种功能。其中，2B版本性能接近QWen2-VL 2B，但是它需要的内存却只有4.3G，而0.5B要求就更低了。它不仅能够在个人电脑就可运行，甚至手机或者一些边缘设备上（如树莓派）也能够运行，并且已适配webGPU，这意味着浏览器里也能高效运行。

本次团队带来四大关键更新：

结构化数据输出：支持 JSON 、XML 、Markdown等多种格式

2.优化 OCR 文本识别能力

3.创新性引入目光检测（Gaze Detection）技术

4.全面提升性能基准测试指标

尤其是目光检测功能堪称亮点，可精准分析人们的视线焦点，在自动驾驶、零售分析、教育等领域具有巨大潜力。这一技术在 GazeFollow 基准测试中达到 0.103 的平均水平，接近人类表现。

该功能引来很多人兴趣，已被玩出了花。感兴趣的读者可以直接体验：https://huggingface.co/spaces/moondream/gaze-demo

更多体验：https://moondream.ai/playground

不得不说，Moondream表现非常惊艳，吸引了大量开发者目光，想必很快就会有很多基于该模型的有趣应用出来，但遗憾的是目前并不支持中文提示词，希望国内开发者能够多做贡献，造福大家。

项目地址：https://github.com/vikhyat/moondream

（文：AI工程化）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复