PassNAT LogoPassNAT

无代码网页数据提取Maxun自建指南,2分钟训练机器人自动爬取,内网穿透远程访问

作者

小编

发布时间

Curving abstract shapes with an orange and blue gradient

Maxun - 无代码网页数据提取平台自建指南

项目介绍

Maxun 是一个强大的无代码网页数据提取平台,让你在 2 分钟内训练一个机器人自动爬取网页数据。它基于 TypeScript 构建,提供了一个直观的可视化界面,无需编写任何代码就能轻松实现网页数据自动化提取。

无论是进行市场调研、潜在客户挖掘、内容聚合还是其他数据采集需求,Maxun 都能帮你轻松搞定。你可以创建自定义机器人来模拟用户操作,支持列表捕获、文本提取、截图等多种操作方式。最强大的是,一旦机器人创建完成,它就会持续自动为你工作,无需任何人工干预。

项目还支持定时运行、网站转 API、网站转电子表格、自适应网站布局变化、登录后数据提取等高级功能,让数据提取变得前所未有的简单。

项目地址:点我跳转

部署安装

如需在外网也能打开项目需要配置内网穿透使用,点击前往 帕斯内网穿透,先注册好账号备用。具体的操作方法可以 点我查看内网穿透全平台上手攻略。

Docker Compose 部署(推荐)

Maxun 使用 Docker Compose 部署最为简便,只需几个步骤即可快速启动。

第一步:准备配置文件

在你的 NAS 或服务器上创建一个项目文件夹,例如 `maxun`。在该文件夹中创建 `.env` 文件,用于存储环境变量配置。

第二步:创建 docker-compose.yml

复制下列的配置文件到你的项目根目录:

1version: '3.8'
2
3services:
4 postgres:
5 image: postgres:15
6 environment:
7 POSTGRES_DB: ${DB_NAME}
8 POSTGRES_USER: ${DB_USER}
9 POSTGRES_PASSWORD: ${DB_PASSWORD}
10 ports:
11 - "${DB_PORT}:5432"
12 volumes:
13 - postgres_data:/var/lib/postgresql/data
14 networks:
15 - maxun-network
16
17 redis:
18 image: redis:7-alpine
19 ports:
20 - "6379:6379"
21 networks:
22 - maxun-network
23
24 minio:
25 image: minio/minio
26 environment:
27 MINIO_ROOT_USER: ${MINIO_ACCESS_KEY}
28 MINIO_ROOT_PASSWORD: ${MINIO_ACCESS_KEY}
29 ports:
30 - "${MINIO_PORT}:9000"
31 - "${MINIO_CONSOLE_PORT}:9001"
32 volumes:
33 - minio_data:/data
34 command: server /data --console-address ":9001"
35 networks:
36 - maxun-network
37
38 backend:
39 image: getmaxun/maxun-backend:latest
40 environment:
41 BACKEND_PORT: ${BACKEND_PORT}
42 BACKEND_URL: ${BACKEND_URL}
43 VITE_BACKEND_URL: ${VITE_BACKEND_URL}
44 JWT_SECRET: ${JWT_SECRET}
45 DB_NAME: ${DB_NAME}
46 DB_USER: ${DB_USER}
47 DB_PASSWORD: ${DB_PASSWORD}
48 DB_HOST: postgres
49 DB_PORT: 5432
50 ENCRYPTION_KEY: ${ENCRYPTION_KEY}
51 SESSION_SECRET: ${SESSION_SECRET}
52 MINIO_ENDPOINT: minio
53 MINIO_PORT: ${MINIO_PORT}
54 MINIO_ACCESS_KEY: ${MINIO_ACCESS_KEY}
55 ports:
56 - "${BACKEND_PORT}:${BACKEND_PORT}"
57 depends_on:
58 - postgres
59 - redis
60 - minio
61 networks:
62 - maxun-network
63
64 frontend:
65 image: getmaxun/maxun-frontend:latest
66 environment:
67 FRONTEND_PORT: ${FRONTEND_PORT}
68 PUBLIC_URL: ${PUBLIC_URL}
69 VITE_PUBLIC_URL: ${VITE_PUBLIC_URL}
70 VITE_BACKEND_URL: ${VITE_BACKEND_URL}
71 ports:
72 - "${FRONTEND_PORT}:${FRONTEND_PORT}"
73 depends_on:
74 - backend
75 networks:
76 - maxun-network
77
78volumes:
79 postgres_data:
80 minio_data:
81
82networks:
83 maxun-network:
84 driver: bridge

第三步:配置环境变量

打开飞牛 NAS 或其他 NAS 设备,在项目根目录创建 `.env` 文件,并填入以下配置:

环境变量设置:必须设置

1BACKEND_PORT=8080
2FRONTEND_PORT=5173
3BACKEND_URL=http://localhost:8080
4VITE_BACKEND_URL=http://localhost:8080
5PUBLIC_URL=http://localhost:5173
6VITE_PUBLIC_URL=http://localhost:5173
7JWT_SECRET=your-super-secret-jwt-key-change-this
8DB_NAME=maxun
9DB_USER=maxun_user
10DB_PASSWORD=your-secure-password-here
11DB_HOST=postgres
12DB_PORT=5432
13ENCRYPTION_KEY=your-encryption-key-32-chars-long
14MINIO_ENDPOINT=minio
15MINIO_PORT=9000
16MINIO_ACCESS_KEY=minioadmin

环境变量设置:选择设置(可选)

1SESSION_SECRET=your-session-secret-key
2MINIO_CONSOLE_PORT=9001
3GOOGLE_CLIENT_ID=your-google-client-id
4GOOGLE_CLIENT_SECRET=your-google-client-secret
5GOOGLE_REDIRECT_URI=http://localhost:5173/auth/google/callback
6AIRTABLE_CLIENT_ID=your-airtable-client-id
7AIRTABLE_REDIRECT_URI=http://localhost:5173/auth/airtable/callback
8MAXUN_TELEMETRY=true

重要提示:

JWT_SECRET 和 ENCRYPTION_KEY 必须设置为强随机字符串,用于数据加密和认证

DB_PASSWORD 请修改为你自己的安全密码

MINIO_ACCESS_KEY 是 MinIO 存储服务的访问密钥,用于存储机器人运行时的截图

如果端口 8080 或 5173 被占用,可以修改 BACKEND_PORT 和 FRONTEND_PORT 的值,但容器内部端口保持不变

第四步:启动服务

在项目根目录打开终端,执行以下命令启动所有服务:

1docker-compose up -d

等待所有容器启动完成(通常需要 1-2 分钟)。

第五步:访问应用

启动完成后,你可以通过以下地址访问 Maxun:

前端界面:http://localhost:5173/

后端 API:http://localhost:8080/

MinIO 管理面板:http://localhost:9001/

使用浏览器打开前端地址,即可开始创建你的第一个数据提取机器人。

功能特性

无代码数据提取 - 通过可视化界面轻松创建数据提取规则

智能分页处理 - 自动处理网页分页和滚动加载

定时任务 - 设置机器人按照指定时间表自动运行

网站转 API - 将任何网站转换为可调用的 API 接口

网站转电子表格 - 直接将提取的数据导出到 Google Sheets 或 Airtable

自适应布局 - 自动适应网站布局变化,无需重新配置

登录支持 - 支持提取需要登录才能访问的数据

集成能力 - 支持 Google Sheets、Airtable 等第三方服务集成

部署完成

到这里,Maxun 就已经成功部署在你的 NAS 或服务器上了。你现在可以:

访问 http://localhost:5173 打开 Maxun 的可视化界面

创建你的第一个机器人,选择要提取的网站

通过拖拽和点击配置数据提取规则

运行机器人自动提取数据

将数据导出到 API、电子表格或其他目标

Maxun 的强大之处在于它完全无需编码,即使是技术小白也能轻松上手。无论你是做市场研究、竞争对手分析、价格监控还是内容聚合,Maxun 都能帮你节省大量的时间和人力成本。

本篇教程结束。祝你使用愉快!