微软开源OmniParser V2，直接将DeepSeek-R1变成使用电脑的 AI Agents~

微软在其官网上发布并开源OmniParser V2，它可以将任何 LLM 变成能够使用计算机的Agent。可以启用 GPT-4o、DeepSeek R1、Sonnet 3.5、Qwen等来了解屏幕上的内容并采取相关操作。

OmniParser 是一款通用屏幕解析工具，可将 UI 屏幕截图解释/转换为结构化格式，以改进现有的基于 LLM 的 UI Agent。

训练数据集包括：

可交互图标检测数据集，该数据集来自热门网页，并自动注释以突出显示可点击和可操作区域；
图标描述数据集，旨在将每个 UI 元素与其相应的功能关联起来。

该模型中心分别包含基于上述数据集的 YOLOv8 微调版本和 Florence-2 微调基础模型。

OmniParserV2 有什么新功能？

更大、更清晰的图标标题 + 基础数据集与 V1 相比，延迟改善了 60%。
平均延迟：A100 上为 0.6 秒/帧，单个 4090 上为 0.8 秒。
性能强劲： ScreenSpot Pro上的平均准确率为 39.6
Agents只需要一个工具：OmniTool。使用 OmniParser + 选择的视觉模型控制 Windows 11 VM。OmniTool 开箱即用地支持以下大型语言模型 – OpenAI (4o/o1/o3-mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。

https://huggingface.co/microsoft/OmniParser-v2.0https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/https://github.com/microsoft/OmniParser/tree/masterdemo： http://hf.co/spaces/microsoft/OmniParser-v2

（文：PaperAgent）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复