UI-TARS 归档 - 每时AI

字节跳动开源多模态AI Agent—UI-TARS-1.5

2025年4月23日11时作者 AIGC开放社区

字节跳动开源的多模态AI Agent UI-TARS 1.5在计算机、浏览器和手机使用测试中表现优异，并在GUI定位方面显著提升。它在游戏领域也表现出强大能力，展现出出色的推理、决策和适应能力。

2025年4月17日23时作者机器之心

ini，一觉醒来，国内这边的豆包大模型又上新了一波。
巧合的是，都是能看懂图像、能调用工具的新一代推

2025年1月24日23时作者量子位

克雷西发自凹非寺
量子位 | 公众号 QbitAI
字节与清华合作，抢在OpenAI之前悄悄上线

2025年1月24日8时作者 NLP工程化

UI-TARS 是一种智能体模型，可以直接理解并操作图形界面的原生 GUI 智能体，它具有感知、行动、推理和记忆等关键能力。相比传统拼装方法，UI-TARS 使用一个“大模型”进行端到端学习，提升了灵活性与稳健性，并在某些测试上超过了 Claude 和 GPT-4。

2025年1月23日16时作者 AI寒武纪

字节联合清华发布的UI-TARS AI Agent纯视觉感知、端到端架构及系统2推理能力使其成为通用GUI自动化新突破。多项硬核数据验证其性能超越Claude和GPT-4等现有模型。