开箱即用的高性能网络爬虫!三引擎加持,静动态数据高效抓取,LLM数据收割效率暴增!

 

在AI驱动的数据时代,高效、灵活的网络爬虫和数据抓取工具成为开发者和企业的刚需。

以往我们所经常使用的爬虫工具(如Scrapy、Selenium),要么静态解析慢,要么动态渲染资源占用高、爬取难度过于复杂。

今天为大家介绍一款刚开源不久的轻量高性能爬虫工具:AnyCrawl

它集成Cheerio、Playwright和Puppeteer三种引擎,支持静态页面快速解析、JavaScript渲染内容抓取以及Google/Bing等搜索引擎结果页面(SERP)批量提取。

提供多线程多进程架构、代理支持、LLM优化输出(Markdown/JSON)。

不用繁琐配置,也不用在多个爬虫库之间反复调试,一站式搞定所有类型网页抓取需求!

主要功能

  • • 多引擎支持:Cheerio(静态HTML解析,超快)、Playwright/Puppeteer(动态JS渲染,精准),自由切换。
  • • SERP爬虫:批量提取Google搜索引擎结果,结构化输出JSON/Markdown。
  • • 整站爬取:智能遍历网站链接,支持深度优先或广度优先策略。
  • • 高性能架构:多线程/多进程并发,批量任务处理效率高。
  • • 代理支持:内置HTTP/SOCKS代理,绕过反爬限制,优化大规模抓取。
  • • LLM优化:输出Markdown、JSON、HTML,适配RAG和AI训练。
  • • Docker部署:一键部署,跨平台兼容Windows、macOS、Linux。

快速使用

AnyCrawl支持 Docker 一键部署,避免繁琐的命令行操作。

首先在你所在的系统上安装 Docker 和 Docker Compose。

# MacOS
brew install docker docker-compose

# 或者下载 Docker Desktop
# https://www.docker.com/products/docker-desktop

然后需要克隆项目

git clone https://github.com/any4ai/anycrawl.git
cd anycrawl

通过Docker启动服务

# Build and start all services
docker compose up --build

# Or run in background
docker compose up --build -d

验证服务是否部署成功

# Check service status
docker compose ps

# Test if API is running properly
curl http://localhost:8080/health

创建环境配置文件

cp .env.example .env

# 示例配置
# Basic configuration
NODE_ENV=production
ANYCRAWL_API_PORT=8080

# Scraping configuration
ANYCRAWL_HEADLESS=true
ANYCRAWL_PROXY_URL=
ANYCRAWL_IGNORE_SSL_ERROR=true

# Database configuration
ANYCRAWL_API_DB_TYPE=sqlite
ANYCRAWL_API_DB_CONNECTION=/usr/src/app/db/database.db

# Redis configuration
ANYCRAWL_REDIS_URL=redis://redis:6379

# Authentication configuration
ANYCRAWL_API_AUTH_ENABLED=false

详细的配置参数说明,可以通过文档指南进行学习了解。

官方说明文档:https://docs.anycrawl.dev/en/general

网络爬取-基本用法


curl -X POST http://localhost:8080/v1/scrape \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
  -d '{
  "url": "https://example.com",
  "engine": "cheerio"
}'

搜索引擎结果(SERP)-基本用法

curl -X POST http://localhost:8080/v1/search \
  -H 'Content-Type: application/json' \
  -H 'Authorization: Bearer YOUR_ANYCRAWL_API_KEY' \
  -d '{
  "query": "AnyCrawl",
  "limit": 10,
  "engine": "google",
  "lang": "all"
}'

应用场景

  • • SERP抓取:批量采集Google搜索结果,市场研究神器。
  • • 电商分析:爬取产品价格/评论,输出JSON喂LLM。
  • • 学术研究:整站爬取论文/博客,Markdown适配RAG。
  • • 实时监控:动态页面抓取,跟踪新闻或价格变化。
  • • AI数据管道:清洗数据为LLM-ready格式,省去预处理。

写在最后

网络爬虫的痛点常让人抓狂:静态获取慢、动态加载卡、SERP页面复杂。

而 AnyCrawl 的出现,就像给爬虫装上了多引擎动车。它集成Cheerio/Playwright/Puppeteer,支持SERP、整站和动态网页抓取,输出LLM友好的Markdown/JSON。

更重要的是,它开源免费,Docker即可一键部署,跨平台无忧。

对于开发者而言更可快速上手,应用于AI训练、市场研究和SEO。

如果你正在寻找一款:高性能、易用、动态页面友好、SERP可批量爬取、LLM 语料格式即插即用的现代爬虫工具,那 AnyCrawl 是一个不错的选择!

GitHub 项目地址:https://github.com/any4ai/anycrawl

 

● 一款改变你视频下载体验的神器:MediaGo

● 字节把 Coze 核心开源了!可视化工作流引擎 FlowGram 上线,AI 赋能可视化流程!

● 英伟达开源语音识别模型!0.6B 参数登顶 ASR 榜单,1 秒转录 60 分钟音频!

● 开发者的文档收割机来了!这个开源工具让你一小时干完一周的活!

● PDF文档解剖术!OCR神器+1,这个开源工具把复杂排版秒变结构化数据!








(文:开源星探)

发表评论