UI-TARS
ComputerUse再来重磅玩家,字节跳动开源 纯视觉驱动GUI 智能体模型 UI-TARS,桌面浏览器全支持
字节跳动开源UI-TARS模型,通过纯视觉驱动和端到端架构实现高效GUI自动化操作,支持多种平台,已在GitHub上发布多个版本供开发者试用。
字节的可以直接操作图形界面的原生 GUI 智能体模型UI-TARS
UI-TARS 是一种智能体模型,可以直接理解并操作图形界面的原生 GUI 智能体,它具有感知、行动、推理和记忆等关键能力。相比传统拼装方法,UI-TARS 使用一个“大模型”进行端到端学习,提升了灵活性与稳健性,并在某些测试上超过了 Claude 和 GPT-4。
字节清华开源力作!UI-TARS原生AI智能体,人人都能拥有“智能助手”
字节联合清华发布的UI-TARS AI Agent纯视觉感知、端到端架构及系统2推理能力使其成为通用GUI自动化新突破。多项硬核数据验证其性能超越Claude和GPT-4等现有模型。
重磅!字节发布UI-TARS大模型,三句话搞定电脑操作!碾压GPT-4!
字节发布UI-TARS视觉语言模型,能像人一样操控电脑界面,并在多项测试中击败GPT-4等对手。它具备感知、推理及行动能力,支持点击、输入等多种操作。UI-TARS通过SFT和DPO训练,在多个GUI代理基准测试中达到最佳成绩,还开源了桌面版应用。