Crawlee

Crawlee

Crawlee 是由 Apify 开发的开源网页抓取库,支持 JavaScript 与 Python,统一处理阻塞、代理、浏览器等复杂环节,帮助开发者快速构建可靠的爬虫。

CrawleeWeb ScrapingPlaywrightCrawlerJavaScriptPythonApify

产品截图

截图 1

详细介绍

产品概述

Crawlee 是一款面向开发者的网页抓取库,提供 JavaScript 与 Python 两套 SDK。它由 Apify 团队维护,能够自动处理请求阻塞、代理管理、浏览器控制等底层细节,让用户专注于业务逻辑的实现。库本身开源免费,并提供与 Apify 平台的深度集成。

核心功能与特点

  • 跨语言支持:同时提供 JavaScript(PlaywrightCrawler)和 Python 版本的 API。
  • 自动化浏览器:基于 Playwright 实现无头浏览器爬取,可通过 headless: false 开启可视化调试。
  • 请求处理器requestHandler 回调提供 request, page, enqueueLinks, pushData, log 等工具,方便页面信息采集与链接递归。
  • 数据管理:支持 pushData 将结果写入默认数据集,exportData 导出为 CSV,亦可直接通过 getData 获取内存中的数据。
  • 爬取控制maxRequestsPerCrawl 限制单次爬取请求数,enqueueLinks 自动抽取并加入待爬队列。
  • CLI 模板npx crawlee create my-crawleruvx 'crawlee[cli]' create my-crawler 快速生成项目脚手架。
  • 生态链接:提供文档、示例、API 参考以及社区渠道(Discord、Stack Overflow、Twitter、YouTube)。

优势

  • 开源且免费:无需付费即可使用全部功能,社区可自行贡献。
  • 统一解决方案:一次性处理阻塞、代理、浏览器等多项技术难点,降低开发与维护成本。
  • 开发效率高:内置的请求处理与数据导出机制让爬虫快速上线,开发者可把精力放在业务逻辑上。
  • 跨语言一致性:JavaScript 与 Python 版保持相同的接口设计,团队可根据项目语言自由切换。
  • 平台集成:可在 Apify 平台上直接运行,享受托管、扩缩容等云服务优势。

应用场景

文中未明确提及具体的应用场景。

相关工具