Spider-Flow可视化爬虫平台流程图配置数据抓取,帕斯内网穿透实现远程访问部署教程
作者
小编
发布时间

项目介绍
Spider-Flow 是一个高度灵活可配置的爬虫平台,采用流程图的方式来定义爬虫。这个平台让用户可以通过可视化的流程图界面来创建和管理爬虫任务,无需编写复杂的代码即可实现数据抓取。
该项目支持多种数据提取方式,包括 Xpath、JsonPath、CSS选择器、正则表达式等,能够处理 JSON、XML、二进制等多种格式的数据。平台还支持多数据源操作、JavaScript 动态渲染页面抓取、代理设置、自动数据库存储等功能。通过丰富的插件生态系统,用户可以扩展平台功能,满足各种复杂的数据抓取需求。
界面直观易用,支持实时测试和调试,让数据抓取工作变得简单高效。项目还提供了完善的任务监控和日志记录功能,方便用户跟踪爬虫运行状态。
项目地址: 点我跳转
部署安装
如需在外也打开项目需要配置内网穿透使用,点击前往 帕斯内网穿透,先注册好账号备用。
打开飞牛 NAS 或其他的 NAS 设备 点击本地镜像-添加镜像-从 URL 添加。这一步先添加 docker 镜像

镜像填 ssssssss/spider-flow:latest
等待下载完成后点击启动按钮启动容器

勾选开机自动启动后下一步,端口设置这里。请设置容器端口 8088 映射到主机端口 8088(如果端口冲突可以修改主机端口,比如改为 8089:8088,但容器内端口必须保持 8088)
存储位置这里,建议创建一个文件夹用于持久化数据存储。在 NAS 上创建 /spider-flow/data
文件夹,然后映射到容器的 /spider-flow/data
目录。
环境变量设置:可选设置 JAVA_OPTS: JVM 参数设置,默认可不填 SPRING_PROFILES_ACTIVE: Spring 配置文件激活,默认可不填
其他的都不用填写,直接下一步启动就好了。
创建成功后可以访问 ip:8088 到这里就可以正常显示项目了
穿透公网
打开帕斯内网穿透控制台,点击隧道管理-隧道列表

点击创建新隧道
隧道节点可以随便选,一般选个负载低的就可以

接下来填写信息,隧道名称可以随便填写
本地 IP 默认就可以
传输协议可以选择 TCP 也可以选择 HTTP/HTTPS
HTTP 就是域名的形式,教程以使用 TCP 为演示
本项目中如果没有修改端口的话默认是 8088 端口,这里本地端口就填 8088
远程端口可以留空也可以自定义。下图仅做参考,请按照实际项目端口添加。

填写完毕点击确定
点击刚才创建好的隧道,点击获取配置文件

回到飞牛 NAS,点击应用中心下载 frpc 客户端

打开后粘贴刚才复制的配置文件,点击确定即可
复制帕斯内网穿透控制台的访问 IP 和端口
可以看到已经正常穿透成功了
本篇教程结束