开源!使用AI模型控制安卓设备,真正的智能机不只是“Hey Siri”。

今天分享的这个开源真挺有意思,可以用AI模型控制安卓设备。


这意味着自动化操作手机已经开始慢慢普及了。


之前有个国内的AI公司也做过类似的demo,发布会搞的看起来不错,但是到现在也没看到上线。


之前也给大家分享过识别UI各种按键的开源项目,但这还是我见过的第一个开源的能直接操作手机的。


肯定有人想问为什么苹果用不了,可以这么说吧,如果哪天真的有了,也一定是苹果自己做的,保护隐私是第一位的。


说到隐私这些问题,再提醒各位开发者一下,AI监管的力度一定会越来越大,越来越完善。


五一前中央网信办开展“清朗·整治AI技术滥用”专项行动。


看到有博主过度解读,还是看下官方发布的吧,有则改之无则加勉。



扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


项目简介


DroidRun 是一个基于大语言模型的开源框架,用于通过自然语言命令控制 Android 设备。它支持 OpenAI、Anthropic、Gemini 等多种LLM,结合 DroidRun Portal 应用,实现自动化操作,如打开应用、发布社交媒体内容或执行复杂任务。用户可通过简单 CLI 或 Python API 自定义自动化脚本,适用于个人任务优化、UI 测试及企业级自动化需求。


DEMO


1、购物助手


在亚马逊上搜索耳机,并将排名前三的产品信息发送给 WhatsApp 上的一位同事。


Prompt:前往亚马逊,搜索耳机,然后将排名前三的产品信息写下来发给我 WhatsApp 上的同事。



2、购物助手演示


社交媒体自动化:打开X(推特)并发布“Hello World” 。


Prompt:打开 X 应用,发布“Hello World”。



功能特点


  • 自然语言交互:支持使用自然语言命令控制 Android 设备,用户无需复杂操作指令,以日常表达即可实现设备交互,如 “Open the settings app” 就能打开设置应用。


  • 多 LLM 支持:兼容 OpenAI、Anthropic、Gemini 等多个 LLM 提供商,可根据需求选择不同的模型,如 gpt-4o-mini、claude-3-sonnet-20240229、gemini-2.0-flash ,满足多样化的应用场景。


  • 易用的 CLI:命令行界面简单直观,通过特定格式输入任务描述和选项就能执行操作,还能指定设备、设置最大步骤数等。


  • 可扩展 API:提供 Python API,方便开发者进行定制化自动化开发,满足个性化需求。


  • 截图分析:具备截图分析能力,帮助用户从视觉层面理解设备状态 。


项目链接


https://github.com/droidrun/droidrun


 关注「开源AI项目落地」公众号

(文:开源AI项目落地)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往