ITEXT 7 是 PDF 扫描或 OCR [关闭]

ITEXT 7 is PDF Scanned or OCR [closed]

提问人:Andre Rubnikowich 提问时间:11/10/2023 更新时间:11/10/2023 访问量:21

问:


想改进这个问题吗?通过编辑这篇文章添加详细信息并澄清问题。

3天前关闭。

我正在尝试确定是扫描 PDF 还是 OCR。这意味着PDF是否可以被搜索。使用 iText 7 可以做到这一点吗?我在互联网上搜索时没有找到任何东西......

itext7

评论

4赞 mkl 11/10/2023
可以通过从相关页面中提取文本来检查“可搜索的 PDF”标准:如果文本提取返回任何文本(或几乎不返回文本),则无法搜索 PDF。
0赞 U. Windl 11/15/2023
许多“OCRed”PDF 在包含文本的文本图像上方都有一个透明层。但是,其他系统实际上将图像替换为文本。

答: 暂无答案