GitHubStore
由 OpenAI 提供支持的计算机使用 AI Agent:Surf
一个 Next.js 应用程序允许用户通过自然语言指令在虚拟计算机上执行任务,该项目集成了 E2B 的桌面沙盒和 OpenAI 的 API。
微软开源浏览器自动化功MCP服务playwright-mcp
使用Playwright提供浏览器自动化能力的模型上下文协议(MCP)服务器。该服务器允许LLMs通过结构化可访问性快照与网页交互,无需截图或视觉调整模型。
自托管的微软OmniParser图像转文本模型,让图像解析变得轻而易举
微软 OmniParser 图像识别模型的自托管版本,包含训练数据集和 FastAPI 服务器实现。通过 fly.io 简单部署,并提供 API 进行图像解析与边界框绘制等操作。
可基于任何内容创建的 AI 问答助手Gurubase
Gurubase 是一个开源 RAG 系统,支持通过网页、PDF、视频和 GitHub 仓库创建 AI 驱动的问答助手(’Gurus’)。它允许嵌入网站提问,并提供实时更新等功能。
专注于将图像文档转换为结构化文本SmolDocling
IBM Research 的 SmolDocling-256M-preview 是一个多模态文档处理模型,专注于将图像文档转换为结构化文本,并支持 OCR、代码块识别、数学公式转换和表格/图表解析等。其核心特性包括高效处理和精准元素识别,具备轻量级模型(基于 2.56 亿参数的 Idefics3 架构)以及开源协议。
让音乐制作更智能AbletonMCP
通过模型上下文协议(MCP),AbletonMCP 将 Ableton Live 与 Claude AI 连接,实现音乐制作、曲目创建和现场会话操作。该系统包括两个主要组件:Ableton Remote Script 和 MCP 服务器。