PassNAT LogoPassNAT

开源PDF文字识别神器OCRmyPDF部署教程,扫描文档秒变可搜索PDF,NAS极简安装配置帕斯内网穿透实现远程访问

作者

小编

发布时间

Curving abstract shapes with an orange and blue gradient

项目介绍

OCRmyPDF 是一个功能强大的开源 PDF OCR(光学字符识别)工具,专门用于为扫描的 PDF 文件添加可搜索的文本层。它基于 Python 开发,使用 Tesseract OCR 引擎,支持超过 100 种语言的文字识别。

该项目的核心功能是将不可搜索的扫描 PDF 文档转换为可搜索、可复制粘贴的 PDF/A 格式文件。它不仅能保持原始图像的精确分辨率,还能优化 PDF 文件大小,通常生成的文件比输入文件更小。OCRmyPDF 支持页面旋转校正、倾斜校正、多核心并行处理,并且经过数百万 PDF 文件的实战测试,稳定可靠。

无论是个人用户需要处理扫描文档,还是企业需要批量处理历史文档数字化,OCRmyPDF 都是一个理想的解决方案。它支持命令行操作,可以轻松集成到自动化工作流程中,让文档管理变得更加高效。

项目地址: 点我跳转

部署安装

如需在外也打开项目需要配置内网穿透使用,点击前往 帕斯内网穿透,先注册好账号备用。

OCRmyPDF 提供了官方的 Docker 镜像,这是最简单快速的部署方式。Docker 镜像包含了所有必要的依赖项,包括 Tesseract OCR 引擎和 Ghostscript,开箱即用。

打开飞牛 NAS 或其他的 NAS 设备 点击本地镜像-添加镜像-从 URL 添加。这一步先添加 docker 镜像

镜像填 jbarlow83/ocrmypdf-alpine 等待下载完成后点击启动按钮启动容器

勾选开机自动启动后下一步,端口设置这里。请设置容器内端口 5000 映射到主机端口 5000(如果端口冲突可以修改主机端口,比如改为 5001:5000)

存储位置这里,建议创建一个文件夹用于存放输入和输出的 PDF 文件,比如创建 /data/ocrmypdf 文件夹映射到容器的 /data 目录。

环境变量设置:可选设置 TESSDATA_PREFIX: Tesseract 数据文件路径(通常不需要修改) OMP_THREAD_LIMIT: 限制 OpenMP 线程数(可以不设置,默认使用所有可用核心)

其他的都不用填写,直接下一步启动就好了。

创建成功后可以通过命令行或 Web 服务访问。如果启用了 Web 服务,可以访问 ip:5000 到这里就可以正常使用 OCRmyPDF 了

穿透公网

打开帕斯内网穿透控制台,点击隧道管理-隧道列表

点击创建新隧道

隧道节点可以随便选,一般选个负载低的就可以

接下来填写信息,隧道名称可以随便填写

本地 IP 默认就可以

传输协议可以选择 TCP 也可以选择 HTTP/HTTPS

HTTP 就是域名的形式,教程以使用 TCP 为演示

本项目中如果没有修改端口的话默认是 5000 端口,这里本地 IP 就填 5000

远程端口可以留空也可以自定义。下图仅做参考,请按照实际项目端口添加。

填写完毕点击确定

点击刚才创建好的隧道,点击获取配置文件

回到飞牛 NAS,点击应用中心下载 frpc 客户端

打开后粘贴刚才复制的配置文件,点击确定即可

复制帕斯内网穿透控制台的访问 IP 和端口

可以看到已经正常穿透成功了

本篇教程结束