微软发布一个基于纯视觉的 GPU 智能体：OmniParser 2.0 版本

微软发布一个基于纯视觉的 GPU 智能体：OmniParser 2.0 版本。它能够将屏幕截图转化为 LLM 可读懂的结构化元素，提高多模态大模型的视觉识别准确度。支持与不同的语言模型无缝集成，，如 OpenAI（4O/O1/O3 -MINI），DeepSeek（R1），QWEN（2.5VL）等。利用该工具，我们可更加轻松实现交互的场景，如自动化测试、自动化操作等。

参考文献：
[1] GitHub：https://github.com/microsoft/OmniParser
[2] https://microsoft.github.io/OmniParser/
[3] https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
[4] https://huggingface.co/microsoft/OmniParser-v2.0
[5] https://huggingface.co/microsoft/OmniParser
[6] https://huggingface.co/spaces/microsoft/OmniParser

（文：NLP工程化）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复