Dify又一神器 - Firecrawl一键爬取网站，打造更丰富的AI知识库！

在当今信息爆炸的时代，构建高效、全面的知识库对于企业和个人而言至关重要。然而，如何快速、高效地从海量网络数据中提取有价值的信息，一直是个挑战。幸运的是，FireCrawl 的出现为我们提供了全新的解决方案。

FireCrawl：AI驱动的智能爬虫工具

FireCrawl 是由 Mendable.ai 开发的开源项目，旨在将网站内容转换为适用于大型语言模型（LLM）的结构化数据。它无需站点地图即可抓取任何网站的所有可访问子页面，并将这些内容转换为干净、格式化的 Markdown 文档。

你也可以本地部署，可以按照READEME.md来进行本地部署项目地址：https://github.com/mendableai/firecrawl 本例中使用的是Cloud版本的FireCrawl()

为了满足对数据隐私和安全性的需求，您可以选择在本地环境中部署 FireCrawl。以下是简要的部署步骤：

克隆代码仓库：在终端中执行以下命令，将 FireCrawl 的代码克隆到本地：

git clone https://github.com/mendableai/firecrawl.git

cd firecrawl
cp .env.example .env

使用文本编辑器打开 .env 文件，修改以下参数：

USEDBAUTHENTICATION：设置为 false，表示不使用数据库认证。

TESTAPIKEY：设置一个自定义的 API 密钥，例如 yourapikey。

启动 FireCrawl：在终端中执行以下命令，使用 Docker Compose 启动 FireCrawl：

docker-compose up -d

配置 Dify 与 FireCrawl 的集成：在 Dify 的设置中，添加 FireCrawl 的 API 配置，确保 Base URL 设置为 http://host.docker.internal:3002，并输入之前设置的 API 密钥。

在dify的插件市场已经封装了FireCrawl调用

你只需要简单的点击安装即可享用；当然在使用Cloud版本的FirCrawl要注意的一点是需要在平台上生成API Key，地址：https://www.firecrawl.dev/

可以在Dify平台直接点击登录生成API Key

在FireCrawl平台注册成功后你可以查看Api Key

拿到key直接在Dify填入授权即可使用FireCrawl插件

Dify和FireCrawl集成已经很好了，在Dify创建知识库可以直接通过FireCrawl生成，不用你再去粘贴复制，生成文件这么麻烦

这里我用 https://www.promptingguide.ai/zh 这个网页为例生成一个提示词相关的知识库，效果如下：

抓取结束

经过一段时间的知识库处理，大工告成🚀，接下来就可以愉快的使用基于网页的知识库了。

FireCrawl 通过其强大的功能和简便的操作，为构建高质量的 AI 知识库提供了一站式解决方案。无论是企业还是个人，都可以利用 FireCrawl 高效地从网络中提取有价值的信息，助力 AI 应用的开发和优化。

如果您对 FireCrawl 的部署和使用有任何疑问，欢迎在评论区留言讨论。

🚀🚀🚀🚀🚀

（文：PyTorch研习社）