字节、清华开源UI-TARS:像人一样操控电脑的端到端Agent 下午10时 2025/01/23 作者 PaperAgent 国产大模型又是热闹非凡的一周,提前过年,DeepSeek R1系列、Kimi 1.5多模态思考模型,阶跃星辰多模态Step-1o,智谱Agent GLM-PC等等,PaperAgent也做过分析,比如: Kimi思考模型k1.5是怎么练成的?细节曝光 今天分享的是字节、清华联合发布并开源UI-TARS,它是新一代原生 GUI Agent模型,旨在利用类似人类的感知、推理和操作能力与图形用户界面 (GUI) 无缝交互。 与传统的模块化框架不同,UI-TARS 将所有关键组件(感知、推理、基础和记忆)集成到单个视觉语言模型 (VLM) 中,无需预定义的工作流程或手动规则即可实现端到端任务自动化,相关的模型也都有开源UI-TARS-2B、UI-TARS-7B、UI-TARS-72B。 https://github.com/bytedance/UI-TARShttps://hf-mirror.com/bytedance-research/UI-TARS-7B-gguf (文:PaperAgent) 欢迎分享