微软发布一个基于纯视觉的 GPU 智能体:OmniParser 2.0 版本

微软发布一个基于纯视觉的 GPU 智能体:OmniParser 2.0 版本。它能够将屏幕截图转化为 LLM 可读懂的结构化元素,提高多模态大模型的视觉识别准确度。支持与不同的语言模型无缝集成,,如 OpenAI(4O/O1/O3 -MINI),DeepSeek(R1),QWEN(2.5VL)等。利用该工具,我们可更加轻松实现交互的场景,如自动化测试、自动化操作等。

参考文献:
[1] GitHub:https://github.com/microsoft/OmniParser
[2] https://microsoft.github.io/OmniParser/
[3] https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
[4] https://huggingface.co/microsoft/OmniParser-v2.0
[5] https://huggingface.co/microsoft/OmniParser
[6] https://huggingface.co/spaces/microsoft/OmniParser


(文:NLP工程化)

欢迎分享

发表评论