通过Crawl4ai在n8n上部署爬虫自动化工作流

总体工作流程图：

一.准备工作

1.docker拉取Crowl4ai服务时要注意版本是否匹配服务器架构。

2.Crowl4ai服务启动时要添加以下指令(api_token在Crowl接入n8n时要用)：

 -p 11235:11235 -e CRAWL4AI_API_TOKEN=12345

二.工作流程

1.创建新工作流，点击“＋”号，选择“On chat message”作为开始信号。（这里输入的是网站的sitemap，下文用https://api-docs.deepseek.com/sitemap.xml为例）

2.接上HTTP Request，内容如下图①所示:

（URL请求地址的填写方法：点击②位置的执行前序节点，拖动爬取的网址标签名到URL请求地址框中）

3.后接xml转json节点（将上文提取到的sitemap数据转化为json格式）如下图所示：

4.后接Split Out节点分割URL数据（上文的sitemap数据呗转化为JSON后，将内容按URL分割成独立项依次执行），内容与点击测试步骤结果如下图所示：

5.接下来接入HTTP Request节点：

在Request节点中，对前节点分割出来的URL依次使用Crawl4ai提供的api爬取内容，内部内容如下两张图所示（注意：URL一栏中填写你本地部署的crawl4ai”地址:端口/crawl”。如果你的crawl4ai是本地docker部署，那么地址就填写127.17.0.1）

（Crawl4ai一共提供了两个api接口：crawl和task。

Crawl：post一个抓取请求，会返回一个task_id。
task：填入提供的task_id,返回爬取到的数据。

）

注意：身份验证选择通用凭证，认证类型选择Header Auth。然后创建新凭证：

NAME: Authorization
Value: Bearer 12345 (这里填写你Crawl4ai服务启动时设置的api_token，如果是根据本文的步骤走的话，这里照着填就可以了）

下图中的绿色标记也是点击测试步骤后从左侧栏拖入。

上述节点填写完成后，点击测试步骤会在右侧栏出现一行task_id，如下图所示：

6.后接wait节点，设置延时3s，避免快速爬取被限制访问。

7.wait节点后接第三个HTTP Request，这个节点通过上文的HTTP Request1爬取后得到的task_id

内部内容填写如下图所示，URL中填写：http://127.17.0.1:11235/task/(你的task_id)（这里标绿的参数依然是从左侧栏拖入）：

#注意：这里的访问凭证配置同第5步。

8.这里获取了所有爬取数据之后，就可以接入AI agent了：

AI agent中选择Define below手动填入提示词，提示词全文见后文。并且接入你的chat model。

角色设定:
你是一名信息结构化和知识库开发的专家，请始终保持专业态度。你的任务是将 markdown 数据整理为适合 LLM 驱动的 RAG 知识库的结构化、易读格式。
任务要求:
1.内容解析
- 识别 markdown 数据中的关键内容和主要结构
2.结构化整理
- 以清晰的标题和分层逻辑组织信息，使其易于检索和理解。
- 保留所有可能对回答用户查询有价值的细节。
3.创建 FAQ (如适用)
- 根据内容提炼出常见问题，并提供清晰、直接的解答。
提升可读性
- 采用项目符号、编号列表、段落分隔等格式优化排版，使内容更直观

5.优化输出
- 严格去除 AI 生成的附加说明，仅保留清理后的核心数据。

响应规则:
1.完整性: 确保所有相关信息完整保留，避免丢失对搜索和理解有价值的内容。
2.精准性: FAQ需紧密围绕内容，确保清晰、简洁且符合用户需求。
3.结构优化:确保最终输出便于分块存储、向量化处理，并支持高效检索。

数据输入:
<markdown>{{ $json.result.markdown }}</markdown>

#注意：上文的<markdown></markdown>之间的内容是：找到包含抓取到的 Markdown 内容的字段（通常是 markdown），将其拖拽到此处。

##注意，如果前面没有限制爬取页数的量，该步骤可能会消耗大量时间和token！

9.将AI agent提炼出的数据保存下来，使用Convert to File结点：

内部内容如下图所示，File Name栏选择AI agent对该页面提炼出的第一行作为文件名，同样是拖动左侧栏output到此项，并在其后接上 .split(‘\n)[0]，末尾再加上.md ：

10.最后一步，将文件保存到磁盘，添加Read/Write Files from Disk：

在里面填写你需要保存到的文件路径与文件名，可以参考下图：

三.尾声

完成以上工作流配置，爬虫系统就完成了。如果需要通过下载文件配置知识库，可以选择新建知识库工作流自动读取文件并导入知识库，也可以选择手动将文件导入知识库。

一.准备工作

二.工作流程

三.尾声

发送评论 编辑评论

发送评论编辑评论