提取多列（？）python 中的 PDF-解网

问：

我正在尝试编写一个程序来将多页 PDF 批量转换为纯文本（想想许多页面教科书）。如果我运行它，我会发现一个问题，如果特定页面有 2 列，它会读错。PyPDF2

我发现的最好的解决方案是使用 OCRmyPDF 将扫描的 PDF 转换为文本 PDF，并在 R 中使用（通过这个解决方案，它是 tabula PDF 的 R 包装器，它有一个 python 包装器，但这个函数基于 Apache PDFBox，它没有当前的 python 包装器）。我能找到的唯一 python 解决方案是同时使用 1 列和 2 列选项运行，并选择具有更多语义信息的选项，但这非常慢。tabulizer::extract_text()tesseract

python pdf ocr pdfbox 文本挖掘

提取多列（？）python 中的 PDF

Extract multicolumn(?) PDFs in python

评论

评论