字节、清华开源UI-TARS：像人一样操控电脑的端到端Agent

国产大模型又是热闹非凡的一周，提前过年，DeepSeek R1系列、Kimi 1.5多模态思考模型，阶跃星辰多模态Step-1o，智谱Agent GLM-PC等等，PaperAgent也做过分析，比如：

Kimi思考模型k1.5是怎么练成的？细节曝光

今天分享的是字节、清华联合发布并开源UI-TARS，它是新一代原生 GUI Agent模型，旨在利用类似人类的感知、推理和操作能力与图形用户界面 (GUI) 无缝交互。

与传统的模块化框架不同，UI-TARS 将所有关键组件（感知、推理、基础和记忆）集成到单个视觉语言模型 (VLM) 中，无需预定义的工作流程或手动规则即可实现端到端任务自动化，相关的模型也都有开源UI-TARS-2B、UI-TARS-7B、UI-TARS-72B。

https://github.com/bytedance/UI-TARShttps://hf-mirror.com/bytedance-research/UI-TARS-7B-gguf

（文：PaperAgent）

《字节、清华开源UI-TARS：像人一样操控电脑的端到端Agent》有1条评论

深度求索新成神AI，我不服！领先 years，无人能敌！

《字节、清华开源UI-TARS：像人一样操控电脑的端到端Agent》有1条评论