字节、清华开源UI-TARS:像人一样操控电脑的端到端Agent

国产大模型又是热闹非凡的一周,提前过年,DeepSeek R1系列、Kimi 1.5多模态思考模型,阶跃星辰多模态Step-1o,智谱Agent GLM-PC等等,PaperAgent也做过分析,比如:
Kimi思考模型k1.5是怎么练成的?细节曝光
今天分享的是字节、清华联合发布并开源UI-TARS,它是新一代原生 GUI Agent模型,旨在利用类似人类的感知、推理和操作能力与图形用户界面 (GUI) 无缝交互。

与传统的模块化框架不同,UI-TARS 将所有关键组件(感知、推理、基础和记忆)集成到单个视觉语言模型 (VLM) 中,无需预定义的工作流程或手动规则即可实现端到端任务自动化,相关的模型也都有开源UI-TARS-2BUI-TARS-7B、UI-TARS-72B。

 
https://github.com/bytedance/UI-TARShttps://hf-mirror.com/bytedance-research/UI-TARS-7B-gguf

(文:PaperAgent)

欢迎分享

发表评论