开箱即用的高性能网络爬虫！三引擎加持，静动态数据高效抓取，LLM数据收割效率暴增！

在AI驱动的数据时代，高效、灵活的网络爬虫和数据抓取工具成为开发者和企业的刚需。

以往我们所经常使用的爬虫工具（如Scrapy、Selenium），要么静态解析慢，要么动态渲染资源占用高、爬取难度过于复杂。

今天为大家介绍一款刚开源不久的轻量高性能爬虫工具：AnyCrawl。

它集成Cheerio、Playwright和Puppeteer三种引擎，支持静态页面快速解析、JavaScript渲染内容抓取以及Google/Bing等搜索引擎结果页面（SERP）批量提取。

提供多线程多进程架构、代理支持、LLM优化输出（Markdown/JSON）。

不用繁琐配置，也不用在多个爬虫库之间反复调试，一站式搞定所有类型网页抓取需求！

主要功能

• 多引擎支持：Cheerio（静态HTML解析，超快）、Playwright/Puppeteer（动态JS渲染，精准），自由切换。
• SERP爬虫：批量提取Google搜索引擎结果，结构化输出JSON/Markdown。
• 整站爬取：智能遍历网站链接，支持深度优先或广度优先策略。
• 高性能架构：多线程/多进程并发，批量任务处理效率高。
• 代理支持：内置HTTP/SOCKS代理，绕过反爬限制，优化大规模抓取。
• LLM优化：输出Markdown、JSON、HTML，适配RAG和AI训练。
• Docker部署：一键部署，跨平台兼容Windows、macOS、Linux。

快速使用

AnyCrawl支持 Docker 一键部署，避免繁琐的命令行操作。

首先在你所在的系统上安装 Docker 和 Docker Compose。

# MacOS
brew install docker docker-compose

# 或者下载 Docker Desktop
# https://www.docker.com/products/docker-desktop

然后需要克隆项目

git clone https://github.com/any4ai/anycrawl.git
cd anycrawl

通过Docker启动服务

# Build and start all services
docker compose up --build

# Or run in background
docker compose up --build -d

验证服务是否部署成功

# Check service status
docker compose ps

# Test if API is running properly
curl http://localhost:8080/health

创建环境配置文件

cp .env.example .env

# 示例配置
# Basic configuration
NODE_ENV=production
ANYCRAWL_API_PORT=8080

# Scraping configuration
ANYCRAWL_HEADLESS=true
ANYCRAWL_PROXY_URL=
ANYCRAWL_IGNORE_SSL_ERROR=true

# Database configuration
ANYCRAWL_API_DB_TYPE=sqlite
ANYCRAWL_API_DB_CONNECTION=/usr/src/app/db/database.db

# Redis configuration
ANYCRAWL_REDIS_URL=redis://redis:6379

# Authentication configuration
ANYCRAWL_API_AUTH_ENABLED=false

详细的配置参数说明，可以通过文档指南进行学习了解。

官方说明文档：https://docs.anycrawl.dev/en/general

网络爬取-基本用法


curl -X POST http://localhost:8080/v1/scrape \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
  -d '{
  "url": "https://example.com",
  "engine": "cheerio"
}'

搜索引擎结果（SERP）-基本用法

curl -X POST http://localhost:8080/v1/search \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
  -d '{
  "query": "AnyCrawl",
  "limit": 10,
  "engine": "google",
  "lang": "all"
}'

应用场景

• SERP抓取：批量采集Google搜索结果，市场研究神器。
• 电商分析：爬取产品价格/评论，输出JSON喂LLM。
• 学术研究：整站爬取论文/博客，Markdown适配RAG。
• 实时监控：动态页面抓取，跟踪新闻或价格变化。
• AI数据管道：清洗数据为LLM-ready格式，省去预处理。

写在最后

网络爬虫的痛点常让人抓狂：静态获取慢、动态加载卡、SERP页面复杂。

而 AnyCrawl 的出现，就像给爬虫装上了多引擎动车。它集成Cheerio/Playwright/Puppeteer，支持SERP、整站和动态网页抓取，输出LLM友好的Markdown/JSON。

更重要的是，它开源免费，Docker即可一键部署，跨平台无忧。

对于开发者而言更可快速上手，应用于AI训练、市场研究和SEO。

如果你正在寻找一款：高性能、易用、动态页面友好、SERP可批量爬取、LLM 语料格式即插即用的现代爬虫工具，那 AnyCrawl 是一个不错的选择！

GitHub 项目地址：https://github.com/any4ai/anycrawl

● 一款改变你视频下载体验的神器：MediaGo

● 字节把 Coze 核心开源了！可视化工作流引擎 FlowGram 上线，AI 赋能可视化流程！

● 英伟达开源语音识别模型！0.6B 参数登顶 ASR 榜单，1 秒转录 60 分钟音频！

● 开发者的文档收割机来了！这个开源工具让你一小时干完一周的活！

● PDF文档解剖术！OCR神器+1，这个开源工具把复杂排版秒变结构化数据！

（文：开源星探）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

主要功能

快速使用

应用场景

写在最后

发表评论 取消回复

发表评论取消回复