智能手机屏幕截图作为输入,能够自主执行用户指定的任务AgentCPM-GUI,简易的代理框架Minion Agent

关注我,记得标星⭐️不迷路哦~



✨ 1: AgentCPM-GUI

AgentCPM-GUI是由THUNLP和ModelBest联合开发的,能操作中英文App的GUI智能体模型。

AgentCPM-GUI 是一个由 THUNLP 和 ModelBest 联合开发的开源设备端大型语言模型(LLM)智能体。它基于拥有 80 亿参数的 MiniCPM-V 构建,以智能手机屏幕截图作为输入,能够自主执行用户指定的任务,尤其擅长操作中文应用程序。

主要特点包括:

  • 高质量的GUI理解:
     通过大规模双语 Android 数据集上的预训练,显著提高了对常见 GUI 部件(按钮、输入框、标签、图标等)的定位和理解能力。
  • 中文App操作:
     它是首个针对中文应用程序进行微调的开源 GUI 智能体,涵盖了 30 多个流行的应用程序,如高德地图、大众点评、哔哩哔哩和小红书等。
  • 增强的规划和推理能力:
     通过强化微调 (RFT),模型在输出操作之前能够“思考”,从而大大提高了复杂任务的成功率。
  • 紧凑的动作空间设计:
     优化的动作空间和简洁的 JSON 格式将平均动作长度缩短到 9.7 个 token,从而提高了设备端的推理效率。

地址:https://github.com/OpenBMB/AgentCPM-GUI

✨ 2: Node.js Sandbox MCP Server

Node.js Sandbox MCP Server是一个用Docker隔离运行JavaScript代码并动态安装npm依赖的Node.js服务器。

Node.js Sandbox MCP Server 是一个基于 Node.js 的服务器,它实现了 Model Context Protocol (MCP),用于在临时的 Docker 容器中运行任意 JavaScript 代码,并可以动态安装 npm 依赖项。它提供了一个安全隔离的环境,可以控制 CPU 和内存使用,避免恶意代码对宿主机造成影响。

主要特点:

  • 隔离性:
     在独立的 Docker 容器中运行代码,保证安全。
  • 动态依赖:
     可以根据需要安装 npm 包。
  • ES 模块支持:
     支持运行 ES 模块的 JavaScript 代码。
  • 容器生命周期管理:
     可以创建、管理和销毁容器。
  • 持久化容器(Detached Mode):
     允许容器在代码执行后保持运行,适用于需要长时间运行的服务。
  • 文件保存:
     可以将代码执行过程中生成的文件保存到指定的宿主机目录。
  • 资源限制:
     可以控制容器的 CPU 和内存使用量。

地址:https://github.com/alfonsograziano/node-code-sandbox-mcp

✨ 3: Scrapling

Scrapling是高性能的Python网页抓取库,可自动适应网站变化,轻松高效地抓取网页。

Scrapling 是一个高性能、智能的 Python 网络爬虫库,旨在简化和增强网页抓取体验。 它的主要特点包括:

  • 简单易用:
     设计简单,易于上手,无论是初学者还是专家都可以使用。
  • 自适应爬取:
     能够自动适应网站结构的变化,即使网站更新,也能保持爬取功能的稳定。
  • 高性能:
     在性能方面优于许多流行的 Python 爬虫库。
  • 智能元素追踪:
     利用智能相似度系统和内置存储,在网站更改后重新定位元素。
  • 反爬绕过:
     易于绕过反爬虫保护机制.
  • **多样化的获取方式:**支持HTTP 请求,动态加载和自动化等.
  • 灵活的选择器:
     支持CSS,XPath,正则表达式等.

地址:https://github.com/D4Vinci/Scrapling

✨ 4: Minion Agent

Minion Agent是一个简易的代理框架,支持浏览器操作、MCP、自动规划和深度研究等功能。

Minion Agent是一个简单的智能体框架,它具备以下能力:

  • 浏览器使用 (Browser Use)
    : 能够模拟浏览器操作,进行网页浏览和信息抓取。
  • 模型上下文协议 (MCP) 支持
    : 支持与基于 MCP 的工具集成,扩展智能体的功能。
  • 自动工具注入 (Auto Instrument)
    : 能够自动集成和使用各种工具。
  • 规划能力 (Plan)
    : 能够根据任务目标制定执行计划,并根据执行情况进行调整。
  • 深度研究 (Deep Research)
    : 支持深度研究功能,可以进行更深入的信息挖掘和分析。

地址:https://github.com/femto/minion-agent

✨ 5: Matrix-Game

Matrix-Game是一个170亿参数的交互式世界基础模型,用于可控的游戏世界生成。

Matrix-Game 是一个用于可控游戏世界生成的交互式世界基础模型,拥有170亿参数。 简单来说,它是一个强大的AI模型,可以根据你的指令(例如键盘和鼠标输入)生成高质量的、动态的游戏世界视频。 它的核心在于“交互性”,意味着用户可以参与到世界的创建过程中,并控制场景的演变。

主要特点可以概括为:

  • **交互式生成:**能够根据用户的输入生成视频,从而实现对游戏世界的精细控制。
  • GameWorld Score基准测试:
     提供了一个全面的基准,可以用来评估Minecraft世界模型的质量,包括视觉质量、时间质量、动作可控性和物理规则理解四个关键维度。
  • Matrix-Game 数据集:
     包含大规模的Minecraft数据集,其中有详细的动作注释,可以支持交互式和物理基础的世界建模的可扩展训练。

Matrix-Game 是一个具有巨大潜力的AI模型,它不仅能够生成高质量的虚拟世界,还能够让用户参与到世界的创建和演变中,为游戏开发、AI研究、教育娱乐等领域带来新的可能性。

地址:https://github.com/SkyworkAI/Matrix-Game



(文:每日AI新工具)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往