无代码可视化爬虫平台 Spider-Flow,流程图定义任务无需编程,NAS 一键部署内网穿透远程访问
作者
小编
发布时间

项目介绍
Spider-Flow 是一个高度灵活可配置的爬虫平台,以流程图的方式定义爬虫任务。它采用可视化流程设计理念,让用户无需编写复杂代码就能快速构建爬虫应用。无论你是数据采集爱好者还是专业开发者,Spider-Flow 都能帮助你轻松应对各种网页数据抓取需求。
该平台支持多种数据提取方式(Xpath、JsonPath、CSS选择器、正则表达式等),能够处理JSON、XML、二进制等多种数据格式。同时支持JavaScript动态渲染页面爬取、代理配置、数据库自动保存、任务监控和日志追踪等强大功能。丰富的插件生态(Selenium、Redis、MongoDB、OSS等)让你可以根据需求灵活扩展。
项目地址:
部署安装
如需在外也打开项目需要配置内网穿透使用,点击前往 帕斯内网穿透,先注册好账号备用。
具体的操作方法可以 点我查看内网穿透全平台上手攻略
Docker 单命令部署
打开飞牛 NAS 或其他的 NAS 设备,点击本地镜像 - 添加镜像 - 从 URL 添加。
在镜像地址栏填入:ssssssss/spider-flow:latest
等待镜像下载完成后,点击启动按钮启动容器。
端口映射设置
勾选开机自动启动后进入下一步。在端口设置中,需要配置以下映射:
容器内端口:8088(这是 Spider-Flow 应用运行的端口,不要修改)
宿主机端口:8088(如果你的 NAS 上 8088 端口已被占用,可以修改为其他端口,比如 8089、8090 等,但容器内端口必须保持为 8088)
如果提示端口被占用,只需修改宿主机端口即可,容器内端口保持不变。
存储位置配置
Spider-Flow 会自动生成爬虫配置和任务数据。建议在 NAS 上创建一个专用文件夹(如 /mnt/spider-flow)用于持久化存储,这样重启容器后数据不会丢失。
环境变量设置
Spider-Flow 的基础版本无需特殊环境变量配置,所有功能开箱即用。如果你需要使用数据库功能或其他高级特性,可以根据实际需求在后续配置中添加。
其他设置保持默认,直接下一步启动即可。
访问应用
容器启动成功后,在浏览器中访问:http://你的NAS地址:8088
稍等片刻,Spider-Flow 的可视化界面就会加载完成。你可以开始创建爬虫流程、配置数据提取规则、监控任务执行情况。
功能亮点
可视化流程设计:通过拖拽流程图快速定义爬虫逻辑,无需编程基础
多种数据提取方式:支持 Xpath、JsonPath、CSS 选择器、正则表达式混合使用
动态页面支持:能够爬取 JavaScript 渲染的动态内容
数据库集成:支持自动保存数据至数据库或文件
任务监控:实时查看爬虫执行状态和详细日志
插件扩展:丰富的插件库满足各类高级需求
本篇教程结束