C

Skill 详情

crawl4ai-skill

网页爬虫爬取工具 | Web crawler, web scraper, spider. DuckDuckGo搜索,网站爬取,动态页面抓取。智能搜索爬取 | 免费,无需API密钥。

来源平台:ModelScope
来源标识:ModelScope/lancelin111/crawl4ai-skill
源文件:原始说明
自动化与浏览器 热门 ModelScope 高 风险 下载 444访问 1.5千Stars 2 ModelScopeGitHub Copilot
来源平台ModelScope
文档版本master
热度热门
排名信号下载 444
概述 安装 文档 下载

快速判断

网页爬虫爬取工具 | Web crawler, web scraper, spider. DuckDuckGo搜索,网站爬取,动态页面抓取。智能搜索爬取 | 免费,无需API密钥。

最后校验2026-03-15
来源平台ModelScope
安全提示
下载副本ZIP 可用

适合任务

  • 按 ModelScope 收录说明完成平台、开发或工作流任务。
  • 通过下载包离线保存 Skill 内容。
  • 结合下载量、访问量和喜欢数评估优先级。

输入与输出

输入:任务目标、上下文材料、平台信息、文件路径、约束条件或需要处理的内容。

输出:按 Skill 说明生成的文档、代码、检查结果、计划、建议或操作步骤。

示例任务

  • 使用 crawl4ai-skill 帮我完成当前任务,并先确认必要上下文。
  • 根据 crawl4ai-skill 的说明,列出操作步骤和风险检查点。

安装方式

  1. 下载本站提供的 Skill ZIP 并解压。
  2. 把解压后的 Skill 目录放入当前 AI 工具支持的 skills 目录。
  3. 如需在线查看原始内容,可打开 GitHub 的 SKILL.md

在线原始地址:modelscope-lancelin111-crawl4ai-skill/SKILL.md

风险边界

使用前请检查权限、外部依赖和要处理的数据类型。第三方平台数据、支付、部署、账号和密钥相关内容应先核对官方说明。

SKILL.md 文档介绍

Crawl4AI Skill - Web Crawler & Scraper

Web Crawling 网页爬虫 | Web Scraping 网页爬取 | LLM 优化输出

智能网页爬虫和爬取工具,支持搜索、全站爬取、动态页面抓取。Free web crawler and scraper with LLM-optimized Markdown output.

核心功能 | Core Features

  • 🔍 Web Search 网页搜索 - DuckDuckGo search, 免 API key
  • 🕷️ Web Crawling 网页爬虫 - Site crawler, spider, sitemap 识别
  • 📝 Web Scraping 网页抓取 - Smart scraper, data extraction
  • 📄 LLM-Optimized Output - Fit Markdown, 省 Token 80%
  • Dynamic Page Scraping - JavaScript 渲染页面爬取

---

快速开始 | Quick Start

安装 | Installation

pip install crawl4ai-skill

Web Search | 网页搜索

# Search the web with DuckDuckGo
crawl4ai-skill search "python web scraping"

Web Scraping | 单页爬取

# Scrape a single web page
crawl4ai-skill crawl https://example.com

Web Crawling | 全站爬虫

# Crawl entire website / spider
crawl4ai-skill crawl-site https://docs.python.org --max-pages 50

---

使用场景 | Use Cases

场景 1:Web Crawler for Documentation | 文档站爬虫

# Crawl documentation site with spider
crawl4ai-skill crawl-site https://docs.fastapi.com --max-pages 100

爬虫效果 | Crawler Output:

  • ❌ 移除:导航栏、侧边栏、广告
  • ✅ 保留:标题、正文、代码块
  • 📊 Token:50,000 → 10,000(-80%)

场景 2:Search + Scrape | 搜索+爬取

# Search and scrape top results
crawl4ai-skill search-and-crawl "Vue 3 best practices" --crawl-top 3

场景 3:Dynamic Page Scraping | 动态页面抓取

JavaScript 渲染的页面爬取(雪球、知乎等):

# Scrape JavaScript-heavy pages
crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2

---

命令参考 | Commands

| 命令 Command | 说明 Description |

|------|------|

| search <query> | Web search 网页搜索 |

| crawl <url> | Web scraping 单页爬取 |

| crawl-site <url> | Web crawling 全站爬虫 |

| search-and-crawl <query> | Search + scrape 搜索并爬取 |

常用参数 | Common Options

# Web Search 搜索
--num-results 10          # Number of results

# Web Scraping 爬取
--format fit_markdown     # Output format
--output result.md        # Output file
--wait-until networkidle  # Wait strategy for dynamic pages
--delay 2                 # Additional wait time (seconds)
--wait-for ".selector"    # Wait for specific element

# Web Crawling 爬虫
--max-pages 100          # Max pages to crawl
--max-depth 3            # Max crawl depth

---

输出格式 | Output Formats

fit_markdown(推荐 Recommended)

智能提取,节省 80% Token。Smart extraction, save 80% tokens.

crawl4ai-skill crawl https://example.com --format fit_markdown

raw_markdown

保留完整结构。Preserve full structure.

crawl4ai-skill crawl https://example.com --format raw_markdown

---

为什么选择这个爬虫?| Why This Crawler?

免费爬虫 Free Crawler - 无需 API key,开箱即用

智能爬取 Smart Scraper - 自动去噪,提取核心内容

全站爬虫 Site Crawler - 支持 sitemap,递归爬取

动态爬取 Dynamic Scraping - JavaScript 渲染页面支持

搜索集成 Search Integration - DuckDuckGo 搜索内置

---

链接 | Links

建议反馈