Gemini Cli,你可以用它当编程助手、搞定自动化任务、用 MCP生成图片视频等等。
加上Windows-MCP:你还可以让他直接上手操作你的 Windows
网友的一个视频,Prompt 是这样的:
“只用 Windows MCP,打开 Chrome,浏览 x.com,打开我最新的关注者,告诉我最后一个关注我的人的 @ 是谁。”
你还可以通过 SSH 远程控制你的电脑,让它干活。
不过,在前面一篇文章末尾,我还介绍过使用任何设备控制任何电脑的Gemini Cli;所以用手表手机来操作电脑也是可以做到的。只需要安装这篇文章末尾的项目:
Gemini CLI 使用指南:解决网络问题+多模态玩法+浏览器控制。
Gemini Cli 的Gemini 2.5 pro模型工具调用可能不是太完美,不如Claude那样调用准确,所以你也可以使用Claude Desktop 或者 Claude Code + Windows-MCP,只是后者门槛会高一些。
Windows-MCP:
让 AI Agent 直接上手操作你的 Windows

https://github.com/CursorTouch/Windows-MCP
这是一个轻量级的开源项目,叫 Windows-MCP。干啥的?简单说,就是给 AI Agent 和 Windows 操作系统搭了个桥。
它是个 MCP 服务器,让大语言模型 (LLM) 能直接上手操作你的 Windows,搞定 文件浏览、应用控制、UI 交互、QA 测试 这些活儿。
特点?
-
无缝集成 Windows: 能原生跟 Windows 的 UI 元素打交道,开应用、控窗口、模拟用户输入,啥都行。
-
任何 LLM 都能用 (视觉能力可选): 跟很多自动化工具不一样,Windows-MCP 不依赖传统的计算机视觉技术,也不需要特定的微调模型。任何 LLM 都能用,省去了复杂的设置。
-
丰富的 UI 自动化工具集: 基本的键盘鼠标操作、捕获窗口/UI 状态的工具,都给你备齐了。
-
可定制 & 可扩展: 可以轻松修改或扩展工具,满足你独特的自动化或 AI 集成需求。
-
实时交互: 两次操作之间的延迟,比如一次鼠标点击到下一次,大概在 1.5 到 2.3 秒 之间。延迟会受活动应用数量、系统负载和 LLM 推理速度的影响。
AI 能用的工具 (MCP Tools)
Claude 可以用下面这些工具来操作 Windows:
-
Click-Tool
: 在指定坐标点击屏幕。 -
Type-Tool
: 在某个元素上打字 (可以先清空原有文本)。 -
Clipboard-Tool
: 用系统剪贴板复制粘贴。 -
Scroll-Tool
: 在窗口或特定区域垂直或水平滚动。 -
Drag-Tool
: 从一个点拖到另一个点。 -
Move-Tool
: 移动鼠标指针。 -
Shortcut-Tool
: 按快捷键 (`Ctrl+c`, `Alt+Tab` 等)。 -
Key-Tool
: 按单个键。 -
Wait-Tool
: 暂停一段时间。 -
State-Tool
: 把活动应用、可交互/文本/滚动元素和桌面截图打包。 -
Screenshot-Tool
: 截个桌面图。 -
Launch-Tool
: 从开始菜单启动应用。 -
Shell-Tool
: 执行 PowerShell 命令。 -
Scrape-Tool
: 抓取整个网页的信息。
与这个mcp相似的,还有两个mcp。


Windows-MCP,Macos-mcp 这些Star 不多,可以当个经验看看,第三个成熟些,不过是有关操控文件系统和终端的,和前两者不一样。
此外,这三个mcp都不需要消耗api令牌。没有什么成本。
浏览器自动化:
Chrome MCP Server
让你平时用的 Chrome 直接变身 AI 智能助理

GitHub: hangwin/mcp-chrome
简单说,这是一个基于 Chrome 扩展的 MCP 服务器。
这个和以前介绍的这个mcp原理差不多的,都有一个chrome插件。
三个方法让Cursor构建网站更加精美:Browser MCP 克隆 + 提示技巧 + 组件修改!
我估计上面两者都是借鉴最开始的这个mcp服务器: 比Playwright更高效!BrowserTools MCP 让Cursor直接控制当前浏览器,AI调试+SEO审计效率狂飙!
它能把你的 Chrome 浏览器功能直接暴露给 Claude 这种 AI 助手,让它们能帮你搞定复杂的浏览器自动化、内容分析和语义搜索。
跟 Playwright 这种传统的浏览器自动化工具不一样, Chrome MCP Server 直接用的是你日常在用的那个 Chrome 浏览器。
这意味着,你平时的用户习惯、各种配置、网站的登录状态,它都能直接用上。让大模型或者聊天机器人,真正接管你的浏览器,成为你的日常助理。
这玩意儿有啥不一样?
-
模型通吃: 不管你喜欢用哪个大语言模型、聊天机器人客户端还是 Agent,都能用它来自动化你的浏览器。
-
用你自己的浏览器: 无缝集成你现有的浏览器环境(配置、登录状态全都在)。
-
纯本地运行: MCP 服务器完全在本地跑,保护用户隐私。
-
流式 HTTP: 支持流式 HTTP 连接。
-
跨标签页上下文: 能理解和操作多个标签页的内容。
-
语义搜索: 内置了向量数据库,能智能地发现浏览器标签页里的内容。
-
智能内容分析: AI 驱动的文本提取和相似度匹配。
-
20+ 种工具: 支持截图、网络监控、交互操作、书签管理、浏览历史等 20 多种工具。
-
SIMD 加速 AI: 定制了 WebAssembly SIMD 优化,向量运算速度快 4-8 倍。
— 跟 Playwright 这种比 —

怎么快速上手?
首先,你得有 Node.js 18+、pnpm 和 Chrome/Chromium 浏览器。
安装步骤:
-
从 GitHub 下载最新的 Chrome 扩展:
下载链接: https://github.com/hangwin/mcp-chrome/releases -
全局安装
mcp-chrome-bridge
:# 用 npm
npm install -g mcp-chrome-bridge
# 或者用 pnpm (推荐)
pnpm config set enable-pre-post-scripts true
pnpm install -g mcp-chrome-bridge(如果自动注册失败,就手动运行
mcp-chrome-bridge register
) -
加载 Chrome 扩展:
-
打开 Chrome,地址栏输入
chrome://extensions/
。 -
打开“开发者模式”。
-
点“加载已解压的扩展程序”,选中你刚下载的扩展文件夹。
-
点一下扩展图标,打开插件,再点“连接”,就能看到 MCP 配置了。
怎么在 MCP 客户端里用?
推荐用流式 HTTP 连接,把下面这段配置加到你的 MCP 客户端里 (比如 Augment, Cursor, CherryStudio):
“mcpServers”: {
“chrome-mcp-server”: {
“type”: “streamableHttp”,
“url”: “http://127.0.0.1:12306/mcp”
}
}
}

如果你的客户端只支持 stdio 连接,那就得麻烦点,先找到 mcp-chrome-bridge
的安装路径,然后把路径填到配置里。
它都能干啥?
工具非常多,这里只列举一部分:
-
浏览器管理: 列出所有窗口和标签页、跳转网址、关闭标签页、前进后退、注入脚本。
-
截图和视觉: 高级截图,能针对特定元素、截取整个页面、自定义尺寸。
-
网络监控: 捕获网络请求,包括响应体。
-
内容分析: 跨标签页语义搜索、提取网页内容、查找可交互元素、捕获控制台输出。
-
交互操作: 点击元素、填写表单、模拟键盘输入。
-
数据管理: 搜索浏览历史、查找/添加/删除书签。
— 看几个实际用法 —
AI 帮你总结网页内容,自动用 Excalidraw 画图。
AI 分析图片内容后,自动用 Excalidraw 复刻图片。(演示)
AI 自动注入脚本,修改网页样式、去广告。
AI 自动帮你抓网络请求,分析接口和返回结构。(其他演示,见:https://github.com/hangwin/mcp-chrome)
AI 帮你分析浏览历史。(演示)
网页对话,翻译总结。(演示)
AI 帮你管理书签。(演示)
自动关闭网页。(演示)
Trae-Agent 开源
专为通用软件工程任务打造的 LLM Agent
Trae-Agent 是一个基于 LLM 的 Agent,目标是搞定各种软件工程任务。

它提供了一个命令行界面 (CLI),能用各种工具和 LLM 模型来执行复杂的软件工程工作流。

https://github.com/bytedance/trae-agent
特点?
-
🌊 Lakeview (湖景): 能给 Agent 的每一步操作提供简短精炼的总结。
-
🤖 支持多种 LLM: 能用 OpenAI 和 Anthropic 的官方 API。
-
🛠️ 丰富的工具生态: 文件编辑、bash 执行、序列化思考 (sequential thinking),啥都有。
-
🎯 交互模式: 提供对话式界面,方便迭代开发。
-
📊 轨迹记录: 详细记录所有 Agent 操作,方便调试和分析。
-
⚙️ 配置灵活: 用 JSON 文件配置,还支持环境变量。
-
🚀 安装简单: 用 pip 就能装。
可用工具有哪些?
Trae Agent 自带好几个工具:
-
str_replace_based_edit_tool
: 创建、编辑、查看和操作文件。 -
bash
: 执行 shell 命令和脚本。 -
sequential_thinking
: 结构化地解决和分析问题。 -
task_done
: 标志任务完成。
— 轨迹记录 —
Trae Agent 会自动记录详细的执行轨迹,方便调试和分析。比如 LLM 的所有交互、Agent 的每一步决策、工具的调用情况、时间戳和 token 使用量等等。
这个项目借鉴了 Anthropic 的 anthropic-quickstart
项目,特别是在工具生态方面。
ONE MORE THING
Grok-4 将能够从一开始就创建“游戏”
更多AI实践与资讯
本号知识星球 (汇集ALL 订阅频道合集和其他):

🌟知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
点这里👇关注我,记得标星哦~
(文:AI进修生)