清华大学推出AutoDroid-V2了

这是2025年的第一篇文章，关注一下小模型。清华大学推出的AutoDroid-V2在移动设备上利用小型语言模型（SLM），显著提升了自然语言控制的自动化程度。

个人觉得这一技术革新不仅在效率、隐私和安全性方面具有显著优势，还为移动设备自动化控制领域开辟了新的道路。

技术背景与需求

传统的逐步GUI智能体方法严重依赖云端的大型语言模型（LLM），这不仅增加了用户端的流量消耗和服务器端的集中服务成本，还存在隐私和安全风险。

但是在任务执行过程中需要频繁地查询和反思，导致效率较低。

AutoDroid-V2通过在移动设备上利用小型语言模型（SLM），生成多步骤脚本一次性执行多个GUI操作，大幅减少了查询频率和资源消耗。不仅提高了任务完成的效率，还在隐私保护和资源消耗方面表现突出。

效率提升

AutoDroid-V2通过生成多步骤脚本，一次性执行多个GUI操作，避免了传统方法中的频繁查询，从而大幅减少了查询次数和资源消耗。

基准测试中，AutoDroid-V2的输入和输出token消耗分别减少至43.5分之一和5.8分之一，LLM推理延迟降低至5.7~13.4分之一。任务能够更快地完成，用户体验更加流畅。

23个移动应用上测试的226项任务中，AutoDroid-V2的任务完成率比AutoDroid、SeeClick、CogAgent和Mind2Web等基线提高了10.5%-51.7%，表明AutoDroid-V2在实际应用中具有更高的可靠性和效率。

隐私保护

AutoDroid-V2主要在本地设备上运行，不依赖于云端服务，有效保护了用户的隐私和数据安全。

避免了在分享个人GUI页面时，会出现的隐私泄露问题。

由于所有的脚本生成和执行都在设备端完成，用户的数据不会被传输到云端，从而降低了数据泄露的风险。

我认为，本地处理数据的方式减少了因网络传输导致的数据泄露风险。

（一）AutoDroid-V2避免了对外部服务器的依赖，从而降低了潜在的安全威胁。

（二）由于不需要频繁的网络通信，AutoDroid-V2在网络不稳定或断开的情况下仍能稳定运行，确保任务的连续性和可靠性。

（三）离线阶段，AutoDroid-V2会构建应用程序文档，包含AI引导的GUI状态压缩、元素XPath自动生成和GUI依赖分析。

（四）用户提交任务请求后，本地小型语言模型基于先前构建的文档快速生成多步骤脚本，并由特定领域的解释器执行。

（五）AutoDroid-V2在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等多种模型上测试，显示出高度一致的表现，成功率在44.6%-54.4%之间，反向冗余比达90.5%-93.0%。

AutoDroid-V2是验证AI在移动设备上决策能力的绝佳工具，特别是在复杂的UI交互测试和用户体验研究中。高效的任务执行能力和强大的兼容性，使其成为科研工作者的理想选择。

对于开发者来说，AutoDroid-V2能够帮助自动化日常的测试流程，从简单的UI测试到模拟复杂用户行为，从而提高开发效率。这种工具的应用将大大缩短开发周期，降低开发成本。

未来，AutoDroid-V2也会演变成为一款强大的个人智能助手，自动完成诸如设置闹钟、发送邮件等日常任务，极大提升生活便捷性。

尽管AutoDroid-V2在许多任务上表现出色，但在面对极端复杂或罕见的任务时，仍有改进空间。未来的研究可以进一步优化模型，提高其在复杂任务中的表现。

虽然小型语言模型在资源消耗和响应速度上有优势，但其性能仍不及大型语言模型。

如何在保持小型模型优势的同时，进一步提升其性能，是一个值得探索的方向。

当前的测试主要集中在安卓平台上，如何将AutoDroid-V2扩展到更多操作系统和设备类型，也是一个重要的研究方向。

AutoDroid-V2在移动设备自动化控制领域，展现了巨大的潜力和应用价值。其高效的任务执行能力、卓越的隐私保护和安全性、以及广泛的应用前景，使得它成为未来智能移动设备发展的重要方向。

（文：陳寳）