开源PDF文字识别神器OCRmyPDF部署教程,扫描文档秒变可搜索PDF,NAS极简安装配置帕斯内网穿透实现远程访问
作者
小编
发布时间

项目介绍
OCRmyPDF 是一个功能强大的开源 PDF OCR(光学字符识别)工具,专门用于为扫描的 PDF 文件添加可搜索的文本层。它基于 Python 开发,使用 Tesseract OCR 引擎,支持超过 100 种语言的文字识别。
该项目的核心功能是将不可搜索的扫描 PDF 文档转换为可搜索、可复制粘贴的 PDF/A 格式文件。它不仅能保持原始图像的精确分辨率,还能优化 PDF 文件大小,通常生成的文件比输入文件更小。OCRmyPDF 支持页面旋转校正、倾斜校正、多核心并行处理,并且经过数百万 PDF 文件的实战测试,稳定可靠。
无论是个人用户需要处理扫描文档,还是企业需要批量处理历史文档数字化,OCRmyPDF 都是一个理想的解决方案。它支持命令行操作,可以轻松集成到自动化工作流程中,让文档管理变得更加高效。
项目地址: 点我跳转
部署安装
如需在外也打开项目需要配置内网穿透使用,点击前往 帕斯内网穿透,先注册好账号备用。
OCRmyPDF 提供了官方的 Docker 镜像,这是最简单快速的部署方式。Docker 镜像包含了所有必要的依赖项,包括 Tesseract OCR 引擎和 Ghostscript,开箱即用。
打开飞牛 NAS 或其他的 NAS 设备 点击本地镜像-添加镜像-从 URL 添加。这一步先添加 docker 镜像

镜像填 jbarlow83/ocrmypdf-alpine
等待下载完成后点击启动按钮启动容器

勾选开机自动启动后下一步,端口设置这里。请设置容器内端口 5000 映射到主机端口 5000(如果端口冲突可以修改主机端口,比如改为 5001:5000)
存储位置这里,建议创建一个文件夹用于存放输入和输出的 PDF 文件,比如创建 /data/ocrmypdf
文件夹映射到容器的 /data
目录。
环境变量设置:可选设置 TESSDATA_PREFIX: Tesseract 数据文件路径(通常不需要修改) OMP_THREAD_LIMIT: 限制 OpenMP 线程数(可以不设置,默认使用所有可用核心)
其他的都不用填写,直接下一步启动就好了。
创建成功后可以通过命令行或 Web 服务访问。如果启用了 Web 服务,可以访问 ip:5000 到这里就可以正常使用 OCRmyPDF 了
穿透公网
打开帕斯内网穿透控制台,点击隧道管理-隧道列表

点击创建新隧道
隧道节点可以随便选,一般选个负载低的就可以

接下来填写信息,隧道名称可以随便填写
本地 IP 默认就可以
传输协议可以选择 TCP 也可以选择 HTTP/HTTPS
HTTP 就是域名的形式,教程以使用 TCP 为演示
本项目中如果没有修改端口的话默认是 5000 端口,这里本地 IP 就填 5000
远程端口可以留空也可以自定义。下图仅做参考,请按照实际项目端口添加。

填写完毕点击确定
点击刚才创建好的隧道,点击获取配置文件

回到飞牛 NAS,点击应用中心下载 frpc 客户端

打开后粘贴刚才复制的配置文件,点击确定即可
复制帕斯内网穿透控制台的访问 IP 和端口
可以看到已经正常穿透成功了
本篇教程结束