OmniParser V2 可以将任何 LLM 转变为能够使用计算机的代理

微软刚刚发布了一款令人印象深刻的工具,OmniParser V2 可以将任何 LLM 转变为能够使用计算机的代理。可以启用 GPT-4o、DeepSeek R1、Sonnet 3.5、Qwen……来了解屏幕上的内容并采取行动。

参考文献:
[1] https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/
[2] https://github.com/microsoft/OmniParser
[3] https://www.reddit.com/r/LocalLLaMA/comments/1ipy2fg/microsoft_drops_omniparser_v2_agent_that_controls/
[4] https://github.com/microsoft/OmniParser/tree/master/omnitool


(文:NLP工程化)

欢迎分享

发表评论