这是2025年的第一篇文章,关注一下小模型。清华大学推出的AutoDroid-V2在移动设备上利用小型语言模型(SLM),显著提升了自然语言控制的自动化程度。
个人觉得这一技术革新不仅在效率、隐私和安全性方面具有显著优势,还为移动设备自动化控制领域开辟了新的道路。
技术背景与需求
传统的逐步GUI智能体方法严重依赖云端的大型语言模型(LLM),这不仅增加了用户端的流量消耗和服务器端的集中服务成本,还存在隐私和安全风险。
但是在任务执行过程中需要频繁地查询和反思,导致效率较低。
AutoDroid-V2通过在移动设备上利用小型语言模型(SLM),生成多步骤脚本一次性执行多个GUI操作,大幅减少了查询频率和资源消耗。不仅提高了任务完成的效率,还在隐私保护和资源消耗方面表现突出。
效率提升
AutoDroid-V2通过生成多步骤脚本,一次性执行多个GUI操作,避免了传统方法中的频繁查询,从而大幅减少了查询次数和资源消耗。
基准测试中,AutoDroid-V2的输入和输出token消耗分别减少至43.5分之一和5.8分之一,LLM推理延迟降低至5.7~13.4分之一。任务能够更快地完成,用户体验更加流畅。
23个移动应用上测试的226项任务中,AutoDroid-V2的任务完成率比AutoDroid、SeeClick、CogAgent和Mind2Web等基线提高了10.5%-51.7%,表明AutoDroid-V2在实际应用中具有更高的可靠性和效率。
隐私保护
AutoDroid-V2主要在本地设备上运行,不依赖于云端服务,有效保护了用户的隐私和数据安全。
避免了在分享个人GUI页面时,会出现的隐私泄露问题。
由于所有的脚本生成和执行都在设备端完成,用户的数据不会被传输到云端,从而降低了数据泄露的风险。
(一)AutoDroid-V2避免了对外部服务器的依赖,从而降低了潜在的安全威胁。
(二)由于不需要频繁的网络通信,AutoDroid-V2在网络不稳定或断开的情况下仍能稳定运行,确保任务的连续性和可靠性。
(三)离线阶段,AutoDroid-V2会构建应用程序文档,包含AI引导的GUI状态压缩、元素XPath自动生成和GUI依赖分析。
(四)用户提交任务请求后,本地小型语言模型基于先前构建的文档快速生成多步骤脚本,并由特定领域的解释器执行。
(五)AutoDroid-V2在Llama3.2-3B、Qwen2.5-7B和Llama3.1-8B等多种模型上测试,显示出高度一致的表现,成功率在44.6%-54.4%之间,反向冗余比达90.5%-93.0%。
AutoDroid-V2是验证AI在移动设备上决策能力的绝佳工具,特别是在复杂的UI交互测试和用户体验研究中。高效的任务执行能力和强大的兼容性,使其成为科研工作者的理想选择。
对于开发者来说,AutoDroid-V2能够帮助自动化日常的测试流程,从简单的UI测试到模拟复杂用户行为,从而提高开发效率。这种工具的应用将大大缩短开发周期,降低开发成本。
未来,AutoDroid-V2也会演变成为一款强大的个人智能助手,自动完成诸如设置闹钟、发送邮件等日常任务,极大提升生活便捷性。
尽管AutoDroid-V2在许多任务上表现出色,但在面对极端复杂或罕见的任务时,仍有改进空间。未来的研究可以进一步优化模型,提高其在复杂任务中的表现。
虽然小型语言模型在资源消耗和响应速度上有优势,但其性能仍不及大型语言模型。
如何在保持小型模型优势的同时,进一步提升其性能,是一个值得探索的方向。
当前的测试主要集中在安卓平台上,如何将AutoDroid-V2扩展到更多操作系统和设备类型,也是一个重要的研究方向。
AutoDroid-V2在移动设备自动化控制领域,展现了巨大的潜力和应用价值。其高效的任务执行能力、卓越的隐私保护和安全性、以及广泛的应用前景,使得它成为未来智能移动设备发展的重要方向。
(文:陳寳)