Trae-Agent 刚刚开源，Windows-MCP 操作你的电脑，Chrome MCP 让AI自动化完成浏览器任务。

Gemini Cli，你可以用它当编程助手、搞定自动化任务、用 MCP生成图片视频等等。

加上Windows-MCP：你还可以让他直接上手操作你的 Windows

网友的一个视频，Prompt 是这样的：

“只用 Windows MCP，打开 Chrome，浏览 x.com，打开我最新的关注者，告诉我最后一个关注我的人的 @ 是谁。”

你还可以通过 SSH 远程控制你的电脑，让它干活。

不过，在前面一篇文章末尾，我还介绍过使用任何设备控制任何电脑的Gemini Cli；所以用手表手机来操作电脑也是可以做到的。只需要安装这篇文章末尾的项目：
Gemini CLI 使用指南：解决网络问题+多模态玩法+浏览器控制。

Gemini Cli 的Gemini 2.5 pro模型工具调用可能不是太完美，不如Claude那样调用准确，所以你也可以使用Claude Desktop 或者 Claude Code + Windows-MCP，只是后者门槛会高一些。

Windows-MCP：
让 AI Agent 直接上手操作你的 Windows

这是一个轻量级的开源项目，叫 Windows-MCP。干啥的？简单说，就是给 AI Agent 和 Windows 操作系统搭了个桥。

它是个 MCP 服务器，让大语言模型 (LLM) 能直接上手操作你的 Windows，搞定 文件浏览、应用控制、UI 交互、QA 测试 这些活儿。

特点？

无缝集成 Windows: 能原生跟 Windows 的 UI 元素打交道，开应用、控窗口、模拟用户输入，啥都行。
任何 LLM 都能用 (视觉能力可选): 跟很多自动化工具不一样，Windows-MCP 不依赖传统的计算机视觉技术，也不需要特定的微调模型。任何 LLM 都能用，省去了复杂的设置。
丰富的 UI 自动化工具集: 基本的键盘鼠标操作、捕获窗口/UI 状态的工具，都给你备齐了。
可定制 & 可扩展: 可以轻松修改或扩展工具，满足你独特的自动化或 AI 集成需求。
实时交互: 两次操作之间的延迟，比如一次鼠标点击到下一次，大概在 1.5 到 2.3 秒 之间。延迟会受活动应用数量、系统负载和 LLM 推理速度的影响。

AI 能用的工具 (MCP Tools)

Claude 可以用下面这些工具来操作 Windows：

Click-Tool: 在指定坐标点击屏幕。
Type-Tool: 在某个元素上打字 (可以先清空原有文本)。
Clipboard-Tool: 用系统剪贴板复制粘贴。
Scroll-Tool: 在窗口或特定区域垂直或水平滚动。
Drag-Tool: 从一个点拖到另一个点。
Move-Tool: 移动鼠标指针。
Shortcut-Tool: 按快捷键 (`Ctrl+c`, `Alt+Tab` 等)。
Key-Tool: 按单个键。
Wait-Tool: 暂停一段时间。
State-Tool: 把活动应用、可交互/文本/滚动元素和桌面截图打包。
Screenshot-Tool: 截个桌面图。
Launch-Tool: 从开始菜单启动应用。
Shell-Tool: 执行 PowerShell 命令。
Scrape-Tool: 抓取整个网页的信息。

与这个mcp相似的，还有两个mcp。

第2个适用于macos，比如用它来操作剪映剪视频，只不过演示的效果比较简单。

Windows-MCP，Macos-mcp 这些Star 不多，可以当个经验看看，第三个成熟些，不过是有关操控文件系统和终端的，和前两者不一样。

此外，这三个mcp都不需要消耗api令牌。没有什么成本。

浏览器自动化：
Chrome MCP Server

让你平时用的 Chrome 直接变身 AI 智能助理

GitHub: hangwin/mcp-chrome

简单说，这是一个基于 Chrome 扩展的 MCP 服务器。

这个和以前介绍的这个mcp原理差不多的，都有一个chrome插件。
三个方法让Cursor构建网站更加精美：Browser MCP 克隆 + 提示技巧 + 组件修改！

我估计上面两者都是借鉴最开始的这个mcp服务器： 比Playwright更高效！BrowserTools MCP 让Cursor直接控制当前浏览器，AI调试+SEO审计效率狂飙！

它能把你的 Chrome 浏览器功能直接暴露给 Claude 这种 AI 助手，让它们能帮你搞定复杂的浏览器自动化、内容分析和语义搜索。

跟 Playwright 这种传统的浏览器自动化工具不一样， Chrome MCP Server 直接用的是你日常在用的那个 Chrome 浏览器。

这意味着，你平时的用户习惯、各种配置、网站的登录状态，它都能直接用上。让大模型或者聊天机器人，真正接管你的浏览器，成为你的日常助理。

这玩意儿有啥不一样？

模型通吃: 不管你喜欢用哪个大语言模型、聊天机器人客户端还是 Agent，都能用它来自动化你的浏览器。
用你自己的浏览器: 无缝集成你现有的浏览器环境（配置、登录状态全都在）。
纯本地运行: MCP 服务器完全在本地跑，保护用户隐私。
流式 HTTP: 支持流式 HTTP 连接。
跨标签页上下文: 能理解和操作多个标签页的内容。
语义搜索: 内置了向量数据库，能智能地发现浏览器标签页里的内容。
智能内容分析: AI 驱动的文本提取和相似度匹配。
20+ 种工具: 支持截图、网络监控、交互操作、书签管理、浏览历史等 20 多种工具。
SIMD 加速 AI: 定制了 WebAssembly SIMD 优化，向量运算速度快 4-8 倍。

— 跟 Playwright 这种比 —

怎么快速上手？

首先，你得有 Node.js 18+、pnpm 和 Chrome/Chromium 浏览器。

安装步骤：

从 GitHub 下载最新的 Chrome 扩展：
下载链接： https://github.com/hangwin/mcp-chrome/releases
全局安装 mcp-chrome-bridge:

# 用 npm
npm install -g mcp-chrome-bridge

# 或者用 pnpm (推荐)
pnpm config set enable-pre-post-scripts true
pnpm install -g mcp-chrome-bridge

(如果自动注册失败，就手动运行 mcp-chrome-bridge register)
加载 Chrome 扩展：

打开 Chrome，地址栏输入 chrome://extensions/。
打开“开发者模式”。
点“加载已解压的扩展程序”，选中你刚下载的扩展文件夹。
点一下扩展图标，打开插件，再点“连接”，就能看到 MCP 配置了。

怎么在 MCP 客户端里用？

推荐用流式 HTTP 连接，把下面这段配置加到你的 MCP 客户端里 (比如 Augment, Cursor, CherryStudio)：

{
         “mcpServers”: {
           “chrome-mcp-server”: {
             “type”: “streamableHttp”,
             “url”: “http://127.0.0.1:12306/mcp”
           }
         }
       }

如果你的客户端只支持 stdio 连接，那就得麻烦点，先找到 mcp-chrome-bridge 的安装路径，然后把路径填到配置里。

它都能干啥？

工具非常多，这里只列举一部分：

浏览器管理: 列出所有窗口和标签页、跳转网址、关闭标签页、前进后退、注入脚本。
截图和视觉: 高级截图，能针对特定元素、截取整个页面、自定义尺寸。
网络监控: 捕获网络请求，包括响应体。
内容分析: 跨标签页语义搜索、提取网页内容、查找可交互元素、捕获控制台输出。
交互操作: 点击元素、填写表单、模拟键盘输入。
数据管理: 搜索浏览历史、查找/添加/删除书签。

— 看几个实际用法 —

AI 帮你总结网页内容，自动用 Excalidraw 画图。

AI 分析图片内容后，自动用 Excalidraw 复刻图片。(演示)

AI 自动注入脚本，修改网页样式、去广告。

AI 自动帮你抓网络请求，分析接口和返回结构。(其他演示，见：https://github.com/hangwin/mcp-chrome)

AI 帮你分析浏览历史。(演示)

网页对话，翻译总结。(演示)

AI 帮你管理书签。(演示)

自动关闭网页。(演示)

Trae-Agent 开源
专为通用软件工程任务打造的 LLM Agent

Trae-Agent 是一个基于 LLM 的 Agent，目标是搞定各种软件工程任务。

它提供了一个命令行界面 (CLI)，能用各种工具和 LLM 模型来执行复杂的软件工程工作流。

https://github.com/bytedance/trae-agent

特点？

🌊 Lakeview (湖景): 能给 Agent 的每一步操作提供简短精炼的总结。
🤖 支持多种 LLM: 能用 OpenAI 和 Anthropic 的官方 API。
🛠️ 丰富的工具生态: 文件编辑、bash 执行、序列化思考 (sequential thinking)，啥都有。
🎯 交互模式: 提供对话式界面，方便迭代开发。
📊 轨迹记录: 详细记录所有 Agent 操作，方便调试和分析。
⚙️ 配置灵活: 用 JSON 文件配置，还支持环境变量。
🚀 安装简单: 用 pip 就能装。

可用工具有哪些？

Trae Agent 自带好几个工具：

str_replace_based_edit_tool: 创建、编辑、查看和操作文件。
bash: 执行 shell 命令和脚本。
sequential_thinking: 结构化地解决和分析问题。
task_done: 标志任务完成。

— 轨迹记录 —

Trae Agent 会自动记录详细的执行轨迹，方便调试和分析。比如 LLM 的所有交互、Agent 的每一步决策、工具的调用情况、时间戳和 token 使用量等等。

这个项目借鉴了 Anthropic 的 anthropic-quickstart 项目，特别是在工具生态方面。

ONE MORE THING

Grok-4 将能够从一开始就创建“游戏”

更多AI实践与资讯

本号知识星球（汇集ALL 订阅频道合集和其他）：

🌟知音难求，自我修炼亦艰，抓住前沿技术的机遇，与我们一起成为创新的超级个体（把握AIGC时代的个人力量）。

点这里👇关注我，记得标星哦～

（文：AI进修生）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复