三个实用的mcp server，Openai和google分别更新大模型

关注我，记得标星⭐️不迷路哦～

✨ 1: Desktop Commander MCP

Desktop Commander MCP：通过Claude执行终端命令，管理进程，并提供文件读写、搜索、编辑等功能。

Desktop Commander MCP 是一个 Claude 桌面应用的扩展工具，它通过 Model Context Protocol (MCP) 协议，让 Claude 能够在你电脑上执行终端命令、管理进程，以及进行文件操作和代码编辑。

终端命令执行：

允许 Claude 运行终端命令，并实时获取输出，支持超时控制和后台运行。
进程管理：

可以列出和结束系统进程。
文件系统操作：

提供文件的读写、创建/列出目录、移动文件/目录、搜索文件、获取文件元数据等功能。
代码编辑：

支持对代码进行精确的文本替换（适合小修改），以及完整的重写文件（适合大修改）。编辑操作可以基于模式匹配，并支持多个文件。

Desktop Commander MCP 扩展了 Claude 桌面应用的能力，让它不仅仅是一个聊天机器人，更成为一个强大的自动化工具，可以协助你完成各种开发和运维任务。

地址：https://github.com/wonderwhy-er/ClaudeDesktopCommander

✨ 2: mcp-hfspace MCP Server

mcp-hfspace是连接Hugging Face Spaces的MCP服务器，简化配置，支持图像生成、语音转录等多种功能。

mcp-hfspace MCP Server 是一个连接 Claude Desktop 和 Hugging Face Spaces 的桥梁。它旨在简化与 Hugging Face Spaces 的集成过程，让用户能够在 Claude Desktop 中轻松使用各种 Hugging Face Spaces 提供的模型和服务，例如图像生成、文本转语音、语音转文本、视觉模型等。

连接 Hugging Face Spaces：

允许 Claude Desktop 通过简单的配置连接并使用 Hugging Face Spaces 中的模型和服务。
自动配置：

能够自动找到合适的 API 端点并进行配置。
文件处理：

支持文件上传和下载，可以处理图像、音频等文件。
Claude Desktop 模式：

专门为 Claude Desktop 设计的模式，图像直接返回到 Claude 的上下文窗口，其他文件保存到工作目录并返回文件路径。
支持私有 Spaces：

可以使用 Hugging Face Token 访问和使用私有 Spaces。
灵活的配置：

允许用户自定义工作目录、API 端点等。

mcp-hfspace MCP Server 提供了一个便捷的方式，将 Claude Desktop 和 Hugging Face Spaces 的强大功能结合起来，扩展了 Claude Desktop 的能力，并让用户能够更轻松地使用各种 AI 模型和服务。

地址：https://github.com/evalstate/mcp-hfspace

✨ 3: Code Runner MCP Server

Code Runner MCP Server是一个用于运行代码片段并显示结果的MCP服务器，支持多种编程语言。

Code Runner MCP Server 是一个允许你运行代码片段并显示结果的微服务。 它支持多种编程语言，包括 JavaScript, PHP, Python 等等。

代码片段执行：

可以在支持 MCP 协议的应用程序（如 VS Code, Claude Desktop）中直接运行代码片段，例如简单的数学运算或输出系统信息。
调试和测试：

快速验证代码逻辑或测试某个功能，而无需搭建完整的开发环境。
系统信息获取：

通过运行代码获取操作系统相关信息，比如临时文件夹位置或 CPU 数量。
与 AI 助手结合：

使 AI 助手能够执行代码并提供更准确的答案，例如运行代码来解决数学问题或获取当前时间。

地址：https://github.com/formulahendry/mcp-server-code-runner

✨ 4: 4o-image-generation

OpenAI于2025年3月25日推出了其最新的图像生成能力，该功能集成于 GPT-4o 模型中。OpenAI长期以来认为图像生成应该是其语言模型的主要能力之一，而GPT-4o代表了他们迄今为止最先进的图像生成器，其目标是生成 不仅美观而且实用 的图像。

与以往侧重于超现实或令人惊叹的场景的生成模型不同，GPT-4o的图像生成更侧重于实用性，能够生成人们在分享和创建信息时使用的“主力”图像。这包括从徽标到图表的各种图像，这些图像在与共享语言和经验相关的符号结合时，可以传达精确的含义。

GPT-4o的图像生成在多个方面进行了改进，使其在实用性和功能性上都更上一层楼：

文本渲染

：GPT-4o能够准确地渲染文本，并能精确地遵循提示。它具备将精确的符号与图像融合的能力，将图像生成转变为视觉交流的工具。例如，它可以生成带有清晰可读文字的街道路牌、菜单和邀请函。
多轮生成

：由于图像生成现在是GPT-4o的原生能力，因此可以通过自然对话来改进图像。GPT-4o可以基于聊天上下文中的图像和文本进行迭代，确保整个过程的一致性。例如，在设计视频游戏角色时，即使经过多次修改和实验，角色的外观也能保持连贯.
指令遵循

：GPT-4o的图像生成能够遵循详细的提示，并注重细节。与其他系统在处理5-8个对象时可能遇到困难不同，GPT-4o可以处理多达10-20个不同的对象。对象与其特征和关系之间更紧密的结合使得控制更加精细。
上下文学习

：GPT-4o可以分析和学习用户上传的图像，并将其细节无缝集成到上下文中，从而为图像生成提供信息。这意味着您可以上传一张图片作为参考，并要求GPT-4o生成具有相似风格或特征的新图像。
世界知识

：原生的图像生成能力使GPT-4o能够连接其文本和图像之间的知识，从而使其感觉更智能、更高效。这使得它可以根据代码生成图像，创建带有食谱标签的鸡尾酒专业照片级图表，生成旧金山雾天原因的可视化信息图，以及制作不同类型鲸鱼的教育海报等.

GPT-4o在大量不同图像风格的数据上进行了训练，使其能够令人信服地创建或转换图像。这包括生成各种风格的图像，例如模仿抓拍的狗仔队照片、宝丽来风格的照片、老式胶片照片，以及高度逼真的场景和物体。

OpenAI也承认其模型并非完美，目前存在一些局限性，他们将在发布后通过模型改进来解决这些问题：

裁剪

：GPT-4o有时可能会过度裁剪较长的图像，尤其是在底部附近。
幻觉

：与其他文本模型类似，图像生成也可能编造信息，尤其是在上下文信息较少的提示下。
高绑定问题

：在生成依赖其知识库的图像时，模型可能难以一次准确渲染超过10-20个不同的概念，例如完整的元素周期表。
精确绘图

：模型在生成精确的图表时可能存在困难。
多语种文本渲染

：模型有时难以渲染非拉丁语言，字符可能不准确或出现幻觉，尤其是在更复杂的情况下。
编辑精度

：对图像生成的特定部分（例如错别字）进行编辑的请求有时效果不佳，并且可能以非请求的方式更改图像的其他部分或引入更多错误。模型在保持用户上传面部编辑的一致性方面存在一个已知bug，但预计在一周内修复。
小文本中的密集信息

：当要求以非常小的尺寸渲染详细信息时，模型已知会遇到困难。

地址：https://openai.com/index/introducing-4o-image-generation/

✨ 5: Gemini 2.5

Gemini 2.5 是 Google 最新的智能 AI 模型，具有更强的推理和代码能力，可以解决复杂问题。

Gemini 2.5 是谷歌最新推出的，也是目前最智能的AI模型。它着重于“思考”能力，即在给出答案之前进行推理思考，从而提高性能和准确性。

思考模型 (Thinking Model):

强调了Gemini 2.5 在回答问题之前进行推理和分析的能力，而不仅仅是分类和预测。
2.5 Pro Experimental版本:

这是首个发布的版本，在多个基准测试中表现优异，在LMArena排行榜上名列前茅。
强大的推理和编码能力:

在数学、科学、编码等领域表现出色。
可用性:

已经在Google AI Studio和Gemini Advanced app中提供，并将很快登陆Vertex AI。
更大的上下文窗口:

拥有1百万个token的上下文窗口（即将增加到2百万），能处理更复杂的任务和更大的数据集。
多模态能力:

支持文本、音频、图像、视频等多种信息来源。

地址：https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/

（文：每日AI新工具）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

✨ 1: Desktop Commander MCP

✨ 2: mcp-hfspace MCP Server

✨ 3: Code Runner MCP Server

✨ 4: 4o-image-generation

✨ 5: Gemini 2.5

发表评论 取消回复

发表评论取消回复