
今天分享的这个开源真挺有意思,可以用AI模型控制安卓设备。
这意味着自动化操作手机已经开始慢慢普及了。
之前有个国内的AI公司也做过类似的demo,发布会搞的看起来不错,但是到现在也没看到上线。
之前也给大家分享过识别UI各种按键的开源项目,但这还是我见过的第一个开源的能直接操作手机的。
肯定有人想问为什么苹果用不了,可以这么说吧,如果哪天真的有了,也一定是苹果自己做的,保护隐私是第一位的。
说到隐私这些问题,再提醒各位开发者一下,AI监管的力度一定会越来越大,越来越完善。
五一前中央网信办开展“清朗·整治AI技术滥用”专项行动。
看到有博主过度解读,还是看下官方发布的吧,有则改之无则加勉。

扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)

项目简介
DroidRun 是一个基于大语言模型的开源框架,用于通过自然语言命令控制 Android 设备。它支持 OpenAI、Anthropic、Gemini 等多种LLM,结合 DroidRun Portal 应用,实现自动化操作,如打开应用、发布社交媒体内容或执行复杂任务。用户可通过简单 CLI 或 Python API 自定义自动化脚本,适用于个人任务优化、UI 测试及企业级自动化需求。
DEMO
1、购物助手
在亚马逊上搜索耳机,并将排名前三的产品信息发送给 WhatsApp 上的一位同事。
Prompt:前往亚马逊,搜索耳机,然后将排名前三的产品信息写下来发给我 WhatsApp 上的同事。
2、购物助手演示
社交媒体自动化:打开X(推特)并发布“Hello World” 。
Prompt:打开 X 应用,发布“Hello World”。
功能特点
-
自然语言交互:支持使用自然语言命令控制 Android 设备,用户无需复杂操作指令,以日常表达即可实现设备交互,如 “Open the settings app” 就能打开设置应用。
-
多 LLM 支持:兼容 OpenAI、Anthropic、Gemini 等多个 LLM 提供商,可根据需求选择不同的模型,如 gpt-4o-mini、claude-3-sonnet-20240229、gemini-2.0-flash ,满足多样化的应用场景。
-
易用的 CLI:命令行界面简单直观,通过特定格式输入任务描述和选项就能执行操作,还能指定设备、设置最大步骤数等。
-
可扩展 API:提供 Python API,方便开发者进行定制化自动化开发,满足个性化需求。
-
截图分析:具备截图分析能力,帮助用户从视觉层面理解设备状态 。
项目链接
https://github.com/droidrun/droidrun
关注「开源AI项目落地」公众号
(文:开源AI项目落地)