重磅！字节发布UI-TARS大模型，三句话搞定电脑操作！碾压GPT-4！

又一个能直接操控电脑的AI来了！

字节刚刚发布了UI-TARS，这是一个专门用来操控电脑界面的视觉语言模型。它不只是看懂屏幕那么简单，而是能像人一样思考、推理，并直接操作鼠标和键盘！

最强的是，在众多基准测试中，它都完胜GPT-4和Claude等对手。

在VisualWebBench上，72B版本达到了82.8%的准确率，超过了GPT-4的78.5%和Claude的78.2%。

这个模型最厉害的地方在于它的「一体化设计」。

不像其他工具那样需要复杂的配置和规则，UI-TARS把感知、推理和行动能力都整合在一个模型里，实现了真正的「端到端自动化」。

它能干什么？

简单来说：

字节同时发布了三个版本：2B、7B和72B参数规模的模型。

通过SFT（有监督微调）和DPO（直接偏好优化） 训练，让模型在10多个GUI代理基准测试中都达到了最好成绩。

更棒的是，这个模型还开源了桌面版应用！

只要简单下载安装，就能用自然语言控制你的电脑。比如「发送一条内容为『hello world』的推文」，或者「查看旧金山的天气」，通通都能自动完成。

UI-TARS的诞生，让我们离「AI助手真正理解并操作计算机」的目标又近了一大步。

它不仅能看懂界面，还能像人类一样思考和行动，这正是未来AI助手的发展方向。

快来试试让AI帮你操作电脑吧！

《重磅！字节发布UI-TARS大模型，三句话搞定电脑操作！碾压GPT-4！》有2条评论