【2024-03-25更新】批量转双层PDF v2.4

42次阅读

没有评论

软件功能：可以批量将文件夹内的PDF文件OCR成双层PDF文档，方便检索复制。

识别引擎用的是PP飞桨，这个好像是百度的东西，对中文的识别率感觉比其它的引擎好

我用的是打包好的组件，作者跟[color=var(--color-accent-fg)]Umi-OCR 批量图片转文字工具是同一个人~，可以离线使用

一些老旧的CPU和32位系统可能无法使用
识别效果：因为字体大小的问题，框选的位置可能会跟实际有点误差，像下面的图片，没框到那行的全部，但实际已经识别完了，粘贴出来的是整行文本

由于文件比较大，连带识别引擎和模型压缩后还有一百多M，所以传百度云了。

有人说不能识别英文，我测试了一下没啥问题

2023-07-01 更新
1.加了一个页的进度条方便看进度
2.加了空白页的异常处理（有些人说点了没反应可能是因为这个）
2023-08-09
1.修复OCR组件在软件退出后还保留后台的问题
2023-11-07更新

本次2.1版本的主要更新内容。
1、换了个新界面
2、支持覆盖原文件、搜索子文件夹
3、可以排除掉上次OCR的文件
4、优化了文字的位置、应该不会再出现超出文档范围的文本了
5、支持保存到指定文件夹
6、OCR组件更新，作者说支持win7 64 需要vc运行库
如果复制文本时出现大量空格，建议换个软件打开（我的电脑就出现过2345看图王复制有空格，Microsoft Edge浏览器复制没空格）

2024-03-25 52专版直接更新到2.4啦以下是更新日志

#2.2 2023-12-04
#打包上自定义字体
#优化异常捕获的处理
#选择指定路径时，输出的文件保持原目录结构
#增加引擎报错
#修复覆盖文件时错误的问题
#2.2.1 2023-12-07
#修复一个添加页面错误的bug
#修复页面旋转导致的错误
#2.2.1 2024-02-28
#GUI调整优化进度细节
#修复特殊文件名的问题
#2.4 2024-03-25
#增加语言选项，还有一个高精度模型（这个模型比较大，识别起来速度慢很多）
#优化页面解析
#增加混合模式
2.4版本借鉴了hiroi-sora大佬的【间隙·树·排序算法】，对OCR结果或PDF提取的文本进行版面分析，按人类阅读顺序进行排序。
现在能够获得的更好的复制效果。
52专版打包了高精度模型，所以体积大很多。如果不需要这个模型，可以下载两百多兆的版本。