让大模型成为能够操控计算机的智能体,作者带来OmniParser V2详解

OmniParser V2 是通过更大规模的交互元素检测数据和图标功能描述数据训练,实现更高效的 GUI 解析,并在 ScreenSpot Pro 基准测试中取得了 39.6 的 SOTA 准确率。