Trae-Agent 刚刚开源,Windows-MCP 操作你的电脑,Chrome MCP 让AI自动化完成浏览器任务。

Gemini Cli,你可以用它当编程助手、搞定自动化任务、用 MCP生成图片视频等等。

加上Windows-MCP:你还可以让他直接上手操作你的 Windows

网友的一个视频,Prompt 是这样的:

“只用 Windows MCP,打开 Chrome,浏览 x.com,打开我最新的关注者,告诉我最后一个关注我的人的 @ 是谁。”

你还可以通过 SSH 远程控制你的电脑,让它干活。

不过,在前面一篇文章末尾,我还介绍过使用任何设备控制任何电脑的Gemini Cli;所以用手表手机来操作电脑也是可以做到的。只需要安装这篇文章末尾的项目:
Gemini CLI 使用指南:解决网络问题+多模态玩法+浏览器控制。

Gemini Cli 的Gemini 2.5 pro模型工具调用可能不是太完美,不如Claude那样调用准确,所以你也可以使用Claude Desktop 或者 Claude Code + Windows-MCP,只是后者门槛会高一些。

Windows-MCP:
让 AI Agent 直接上手操作你的 Windows

https://github.com/CursorTouch/Windows-MCP

这是一个轻量级的开源项目,叫 Windows-MCP。干啥的?简单说,就是给 AI Agent 和 Windows 操作系统搭了个桥。

它是个 MCP 服务器,让大语言模型 (LLM) 能直接上手操作你的 Windows,搞定 文件浏览、应用控制、UI 交互、QA 测试 这些活儿。

特点?

  • 无缝集成 Windows: 能原生跟 Windows 的 UI 元素打交道,开应用、控窗口、模拟用户输入,啥都行。

  • 任何 LLM 都能用 (视觉能力可选): 跟很多自动化工具不一样,Windows-MCP 不依赖传统的计算机视觉技术,也不需要特定的微调模型。任何 LLM 都能用,省去了复杂的设置。

  • 丰富的 UI 自动化工具集: 基本的键盘鼠标操作、捕获窗口/UI 状态的工具,都给你备齐了。

  • 可定制 & 可扩展: 可以轻松修改或扩展工具,满足你独特的自动化或 AI 集成需求。

  • 实时交互: 两次操作之间的延迟,比如一次鼠标点击到下一次,大概在 1.5 到 2.3 秒 之间。延迟会受活动应用数量、系统负载和 LLM 推理速度的影响。

AIWindows

AI 能用的工具 (MCP Tools)

Claude 可以用下面这些工具来操作 Windows:

  • Click-Tool: 在指定坐标点击屏幕。

  • Type-Tool: 在某个元素上打字 (可以先清空原有文本)。

  • Clipboard-Tool: 用系统剪贴板复制粘贴。

  • Scroll-Tool: 在窗口或特定区域垂直或水平滚动。

  • Drag-Tool: 从一个点拖到另一个点。

  • Move-Tool: 移动鼠标指针。

  • Shortcut-Tool: 按快捷键 (`Ctrl+c`, `Alt+Tab` 等)。

  • Key-Tool: 按单个键。

  • Wait-Tool: 暂停一段时间。

  • State-Tool: 把活动应用、可交互/文本/滚动元素和桌面截图打包。

  • Screenshot-Tool: 截个桌面图。

  • Launch-Tool: 从开始菜单启动应用。

  • Shell-Tool: 执行 PowerShell 命令。

  • Scrape-Tool: 抓取整个网页的信息。


与这个mcp相似的,还有两个mcp。



第2个适用于macos,比如用它来操作剪映剪视频,只不过演示的效果比较简单。


Windows-MCP,Macos-mcp  这些Star 不多,可以当个经验看看,第三个成熟些,不过是有关操控文件系统和终端的,和前两者不一样。

此外,这三个mcp都不需要消耗api令牌。没有什么成本。

浏览器自动化:
Chrome MCP Server

让你平时用的 Chrome 直接变身 AI 智能助理

GitHub: hangwin/mcp-chrome

简单说,这是一个基于 Chrome 扩展的 MCP 服务器

这个和以前介绍的这个mcp原理差不多的,都有一个chrome插件。
三个方法让Cursor构建网站更加精美:Browser MCP 克隆 + 提示技巧 + 组件修改!

我估计上面两者都是借鉴最开始的这个mcp服务器: 比Playwright更高效!BrowserTools MCP 让Cursor直接控制当前浏览器,AI调试+SEO审计效率狂飙!

它能把你的 Chrome 浏览器功能直接暴露给 Claude 这种 AI 助手,让它们能帮你搞定复杂的浏览器自动化、内容分析和语义搜索。

跟 Playwright 这种传统的浏览器自动化工具不一样, Chrome MCP Server 直接用的是你日常在用的那个 Chrome 浏览器

这意味着,你平时的用户习惯、各种配置、网站的登录状态,它都能直接用上。让大模型或者聊天机器人,真正接管你的浏览器,成为你的日常助理。

这玩意儿有啥不一样?

  • 模型通吃: 不管你喜欢用哪个大语言模型、聊天机器人客户端还是 Agent,都能用它来自动化你的浏览器。

  • 用你自己的浏览器: 无缝集成你现有的浏览器环境(配置、登录状态全都在)。

  • 纯本地运行: MCP 服务器完全在本地跑,保护用户隐私。

  • 流式 HTTP: 支持流式 HTTP 连接。

  • 跨标签页上下文: 能理解和操作多个标签页的内容。

  • 语义搜索: 内置了向量数据库,能智能地发现浏览器标签页里的内容。

  • 智能内容分析: AI 驱动的文本提取和相似度匹配。

  • 20+ 种工具: 支持截图、网络监控、交互操作、书签管理、浏览历史等 20 多种工具。

  • SIMD 加速 AI: 定制了 WebAssembly SIMD 优化,向量运算速度快 4-8 倍。

— 跟 Playwright 这种比 —

怎么快速上手?

首先,你得有 Node.js 18+、pnpm 和 Chrome/Chromium 浏览器。

安装步骤:

  1. 从 GitHub 下载最新的 Chrome 扩展:
    下载链接: https://github.com/hangwin/mcp-chrome/releases

  2. 全局安装 mcp-chrome-bridge:

    # 用 npm
    npm install -g mcp-chrome-bridge

    # 或者用 pnpm (推荐)
    pnpm config set enable-pre-post-scripts true
    pnpm install -g mcp-chrome-bridge

    (如果自动注册失败,就手动运行 mcp-chrome-bridge register)

  3. 加载 Chrome 扩展:

    • 打开 Chrome,地址栏输入 chrome://extensions/

    • 打开“开发者模式”。

    • 点“加载已解压的扩展程序”,选中你刚下载的扩展文件夹。

    • 点一下扩展图标,打开插件,再点“连接”,就能看到 MCP 配置了。

怎么在 MCP 客户端里用?

推荐用流式 HTTP 连接,把下面这段配置加到你的 MCP 客户端里 (比如 Augment, Cursor, CherryStudio):

{
         “mcpServers”: {
           “chrome-mcp-server”: {
             “type”: “streamableHttp”,
             “url”: “http://127.0.0.1:12306/mcp”
           }
         }
       }

如果你的客户端只支持 stdio 连接,那就得麻烦点,先找到 mcp-chrome-bridge 的安装路径,然后把路径填到配置里。

它都能干啥?

工具非常多,这里只列举一部分:

  • 浏览器管理: 列出所有窗口和标签页、跳转网址、关闭标签页、前进后退、注入脚本。

  • 截图和视觉: 高级截图,能针对特定元素、截取整个页面、自定义尺寸。

  • 网络监控: 捕获网络请求,包括响应体。

  • 内容分析: 跨标签页语义搜索、提取网页内容、查找可交互元素、捕获控制台输出。

  • 交互操作: 点击元素、填写表单、模拟键盘输入。

  • 数据管理: 搜索浏览历史、查找/添加/删除书签。

— 看几个实际用法 —

AI 帮你总结网页内容,自动用 Excalidraw 画图。


AI 分析图片内容后,自动用 Excalidraw 复刻图片。(演示)


AI 自动注入脚本,修改网页样式、去广告。


AI 自动帮你抓网络请求,分析接口和返回结构。(其他演示,见:https://github.com/hangwin/mcp-chrome)

AI 帮你分析浏览历史。(演示)

网页对话,翻译总结。(演示)

AI 帮你管理书签。(演示)

自动关闭网页。(演示)

Trae-Agent 开源
专为通用软件工程任务打造的 LLM Agent

Trae-Agent 是一个基于 LLM 的 Agent,目标是搞定各种软件工程任务。

它提供了一个命令行界面 (CLI),能用各种工具和 LLM 模型来执行复杂的软件工程工作流。


https://github.com/bytedance/trae-agent

特点?

  • 🌊 Lakeview (湖景): 能给 Agent 的每一步操作提供简短精炼的总结。

  • 🤖 支持多种 LLM: 能用 OpenAI 和 Anthropic 的官方 API。

  • 🛠️ 丰富的工具生态: 文件编辑、bash 执行、序列化思考 (sequential thinking),啥都有。

  • 🎯 交互模式: 提供对话式界面,方便迭代开发。

  • 📊 轨迹记录: 详细记录所有 Agent 操作,方便调试和分析。

  • ⚙️ 配置灵活: 用 JSON 文件配置,还支持环境变量。

  • 🚀 安装简单: 用 pip 就能装。

可用工具有哪些?

Trae Agent 自带好几个工具:

  • str_replace_based_edit_tool: 创建、编辑、查看和操作文件。

  • bash: 执行 shell 命令和脚本。

  • sequential_thinking: 结构化地解决和分析问题。

  • task_done: 标志任务完成。

— 轨迹记录 —

Trae Agent 会自动记录详细的执行轨迹,方便调试和分析。比如 LLM 的所有交互、Agent 的每一步决策、工具的调用情况、时间戳和 token 使用量等等。

这个项目借鉴了 Anthropic 的 anthropic-quickstart 项目,特别是在工具生态方面。

ONE MORE THING

Grok-4 将能够从一开始就创建“游戏”

更多AI实践与资讯

本号知识星球 (汇集ALL 订阅频道合集和其他):

🌟知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

点这里👇关注我,记得标星哦~


(文:AI进修生)

发表评论