总体工作流程图:

一.准备工作
1.docker拉取Crowl4ai服务时要注意版本是否匹配服务器架构。
2.Crowl4ai服务启动时要添加以下指令(api_token在Crowl接入n8n时要用):
-p 11235:11235 -e CRAWL4AI_API_TOKEN=12345
二.工作流程
1.创建新工作流,点击“+”号,选择“On chat message”作为开始信号。(这里输入的是网站的sitemap,下文用https://api-docs.deepseek.com/sitemap.xml为例)

2.接上HTTP Request,内容如下图①所示:
(URL请求地址的填写方法:点击②位置的执行前序节点,拖动爬取的网址标签名到URL请求地址框中)

3.后接xml转json节点(将上文提取到的sitemap数据转化为json格式)如下图所示:


4.后接Split Out节点分割URL数据(上文的sitemap数据呗转化为JSON后,将内容按URL分割成独立项依次执行),内容与点击测试步骤结果如下图所示:

5.接下来接入HTTP Request节点:

在Request节点中,对前节点分割出来的URL依次使用Crawl4ai提供的api爬取内容,内部内容如下两张图所示(注意:URL一栏中填写你本地部署的crawl4ai”地址:端口/crawl”。如果你的crawl4ai是本地docker部署,那么地址就填写127.17.0.1)
(Crawl4ai一共提供了两个api接口:crawl和task。
- Crawl:post一个抓取请求,会返回一个task_id。
- task:填入提供的task_id,返回爬取到的数据。
)
注意:身份验证选择通用凭证,认证类型选择Header Auth。然后创建新凭证:
- NAME: Authorization
- Value: Bearer 12345 (这里填写你Crawl4ai服务启动时设置的api_token,如果是根据本文的步骤走的话,这里照着填就可以了)

下图中的绿色标记也是点击测试步骤后从左侧栏拖入。


上述节点填写完成后,点击测试步骤会在右侧栏出现一行task_id,如下图所示:

6.后接wait节点,设置延时3s,避免快速爬取被限制访问。

7.wait节点后接第三个HTTP Request,这个节点通过上文的HTTP Request1爬取后得到的task_id

内部内容填写如下图所示,URL中填写:http://127.17.0.1:11235/task/(你的task_id)(这里标绿的参数依然是从左侧栏拖入):
#注意:这里的访问凭证配置同第5步。

8.这里获取了所有爬取数据之后,就可以接入AI agent了:

AI agent中选择Define below手动填入提示词,提示词全文见后文。并且接入你的chat model。

角色设定:
你是一名信息结构化和知识库开发的专家,请始终保持专业态度。你的任务是将 markdown 数据整理为适合 LLM 驱动的 RAG 知识库的结构化、易读格式。
任务要求:
1.内容解析
- 识别 markdown 数据中的关键内容和主要结构
2.结构化整理
- 以清晰的标题和分层逻辑组织信息,使其易于检索和理解。
- 保留所有可能对回答用户查询有价值的细节。
3.创建 FAQ (如适用)
- 根据内容提炼出常见问题,并提供清晰、直接的解答。
提升可读性
- 采用项目符号、编号列表、段落分隔等格式优化排版,使内容更直观
5.优化输出
- 严格去除 AI 生成的附加说明,仅保留清理后的核心数据。
响应规则:
1.完整性: 确保所有相关信息完整保留,避免丢失对搜索和理解有价值的内容。
2.精准性: FAQ需紧密围绕内容,确保清晰、简洁且符合用户需求。
3.结构优化:确保最终输出便于分块存储、向量化处理,并支持高效检索。
数据输入:
<markdown>{{ $json.result.markdown }}</markdown>
#注意:上文的<markdown></markdown>之间的内容是:找到包含抓取到的 Markdown 内容的字段(通常是 markdown),将其拖拽到此处。
##注意,如果前面没有限制爬取页数的量,该步骤可能会消耗大量时间和token!
9.将AI agent提炼出的数据保存下来,使用Convert to File结点:

内部内容如下图所示,File Name栏选择AI agent对该页面提炼出的第一行作为文件名,同样是拖动左侧栏output到此项,并在其后接上 .split(‘\n)[0],末尾再加上.md :

10.最后一步,将文件保存到磁盘,添加Read/Write Files from Disk:

在里面填写你需要保存到的文件路径与文件名,可以参考下图:

三.尾声
完成以上工作流配置,爬虫系统就完成了。如果需要通过下载文件配置知识库,可以选择新建知识库工作流自动读取文件并导入知识库,也可以选择手动将文件导入知识库。