字节的可以直接操作图形界面的原生 GUI 智能体模型UI-TARS
UI-TARS 是一种智能体模型,可以直接理解并操作图形界面的原生 GUI 智能体,它具有感知、行动、推理和记忆等关键能力。相比传统拼装方法,UI-TARS 使用一个“大模型”进行端到端学习,提升了灵活性与稳健性,并在某些测试上超过了 Claude 和 GPT-4。
UI-TARS 是一种智能体模型,可以直接理解并操作图形界面的原生 GUI 智能体,它具有感知、行动、推理和记忆等关键能力。相比传统拼装方法,UI-TARS 使用一个“大模型”进行端到端学习,提升了灵活性与稳健性,并在某些测试上超过了 Claude 和 GPT-4。