提取多列(?)python 中的 PDF
作者:user760900 提问时间:9/14/2023
我正在尝试编写一个程序来将多页 PDF 批量转换为纯文本(想想许多页面教科书)。如果我运行它,我会发现一个问题,如果特定页面有 2 列,它会读错。PyPDF2 我发现的最好的解决方案是使用 OCRm...
ocr 问答列表
作者:user760900 提问时间:9/14/2023
我正在尝试编写一个程序来将多页 PDF 批量转换为纯文本(想想许多页面教科书)。如果我运行它,我会发现一个问题,如果特定页面有 2 列,它会读错。PyPDF2 我发现的最好的解决方案是使用 OCRm...
作者:Inês Martins 提问时间:6/12/2015
我对 OCR 和 Tesseract 很陌生。 到目前为止,我有一个工作脚本,可以从图像中提取相当好的文本。 我的疑问:是否可以训练 tesseract 仅检索某种字典文件中显示的单词/字符?? ...
作者:prime 提问时间:7/13/2023
我需要为我的应用程序添加一个功能,允许我的客户从图像文本中提取文本,并将它们解析为可用数据(如 json 格式)并存储它们,以便能够执行更好的数据研究。 这些图像文本是大的pdf文件(~150-50...
作者:Subaru Spirit 提问时间:11/17/2022
例如,当我从pdftools使用时:,它将在R控制台中显示状态,如下所示。pdf_ocr_texttext1 <- pdf_ocr_text("0.pdf", dpi = 300) Converti...
作者:dwori 提问时间:4/12/2022
我试图从XDocReport文档中重建示例,但是当我尝试创建表或填充表时。由于以下错误,它总是失败。我无法弄清楚问题出在哪里...... 我已经更新了所有依赖项,并在 .odt 文件中尝试了不同的语...
作者:user3731513 提问时间:2/7/2022
我有以下任务: 字符串 A:众所周知,可以包含 、 、 、 、 肯定 - 比如说一种货号。0OiI1 string B:来自 OCR 的字符串。所以有些“”在这里也可以是“”,有些“”可以是“”。...
作者:Manuel Calles 提问时间:5/13/2021
我需要从数字秤屏幕上读取数字,这些数字显示如下,例如: 所以我使用网络摄像头、Javascript 和 Tesseract.js 来使用 OCR。但最好的结果是: Jo | | I 10) 当...
作者:leoden 提问时间:8/7/2015
我想像这篇文章一样使用 Tesseract 阅读特定的字符序列:Tesseract OCR:是否可以强制使用特定模式? 我尝试过在 Tesseract 中将集市与模式匹配模式,OCR 仍然可以识别其...
作者:Mushfik F Rahman 提问时间:6/3/2021
我是探索 git 命令的新手,突然发现了 LF 和 CRLF。运行命令 git add 时,终端显示以下内容: LF 将在 app.js 中替换为 CRLF。 该文件将在您的工作目录中具有其原始行结...