国内有什么好用的 PDF 文档 OCR 产品吗
时间: 2020-08-21来源:V2EX
前景提要
项目语言是 Java,运行在 CentOS6.9 服务器上,主攻业务就是可搜索 PDF ( SearchablePDF )的处理和归档
最近来了个需求,需要将纯图片 PDF ( ImagePDF )在项目里 OCR,然后继续处理。
筛选了市面很多产品,最终锁定 ABBYY 的开发者 SDK,可以集成进项目,效果也不错,算市面同类产品独一档。本来和那边客服改谈的都谈好了,Demo 写完了,就等 license 买下来开搞,最后因为是国外软件,不好申请科研经费,方案惨遭腰斩。
问题来了,现在国内有什么好用的 PDF 文档 OCR 产品?
几个硬性要求:
1.可以是 Windows 上的桌面软件(最迫不得已的方案。退而求其次,让用户手动去转),最好是 Linux 上的 SDK
2.桌面软件支持批量处理,SDK 用多线程操作或者批量操作不会有太大的性能问题
3.可以保存为可搜索 PDF
4.除了识别 PDF 页面中的文字,也能识别 PDF 页面中的图片和表格
5.对 PDF 字体大小和位置敏感,OCR 结果排版应该和原文一致
福昕应该是国内 PDF 这一块做的最好的了,可惜它只有 Windows 版的 SDK 才支持 OCR 。不知道还有什么选择推荐,先在这里谢谢了

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行