智能体模型归档

字节的可以直接操作图形界面的原生 GUI 智能体模型UI-TARS

2025年1月24日8时作者 NLP工程化

UI-TARS 是一种智能体模型，可以直接理解并操作图形界面的原生 GUI 智能体，它具有感知、行动、推理和记忆等关键能力。相比传统拼装方法，UI-TARS 使用一个“大模型”进行端到端学习，提升了灵活性与稳健性，并在某些测试上超过了 Claude 和 GPT-4。