pdf-解析 问答列表

来自 tabula-java 的错误:错误:错误:标头不包含 versioninfo

作者:mayk.dyasper 提问时间:3/10/2023

我有一个解析pdf文件的脚本。 在我的 WSL 上,它运行良好,但是当我在 Centos 7 上部署它时,我遇到了这个错误。 我正在使用 tabula-py python 版本:3.6 Java ...

Word 如何能够在其他人无法检测到 PDF 结构的情况下如此出色地检测 PDF 结构?有没有一个图书馆可以做到这一点?

作者:Nick 提问时间:3/10/2023

一段时间以来,我一直对解析 PDF 感兴趣,并取得了不同程度的成功。然而,通常对于 PDF,有用的数据包含在文本中,即表格外部等。但是,如果要从句子中获取数据,则句子不被破坏至关重要。我发现的最好的方...

按位置将一组字母聚类到表格中

作者:JohnDiGriz 提问时间:3/21/2023

我有一组位于平面上的字母(对于每个字母,我知道其角点的坐标,字符串可以被视为平行四边形)。我知道字符串构成了一个表,但我不知道表有多少行或列,也不知道单元格的大小。此外,字母和表格还具有以下属性 字...

将数据从表格格式的 pdf 中提取到 excel/csv - Amazon textract

作者:StackUseR 提问时间:3/24/2023

今天,我正在尝试使用 Amazon Textract 将表格从 pdf 文件中提取到 excel 中!最初我以为这将非常简单,因为直到我使用 Java sdk 处理它。但现在我被困住了。我不想使用 l...

如何使PDFMiner Six在解析文档时检测项目符号(包括字母数字项目符号)?

作者:belacile 提问时间:6/2/2023

我目前正在使用 PDFMiner.six 为我解析文档,但希望它能够检测项目符号(包括字母数字项目符号,如“a.”、“i.”、“1.”)。目前,它只将它们视为字符,但我想知道我是否在 PDFMiner...

如何避免Python PDF解析代码中因表结构不匹配而出现重复?

作者:Pablo Martín Calvo 提问时间:5/26/2023

我有 100 多个 PDF 是匹配报告,我想从中抓取数据,以便将其存储在数据帧中,以便以后可以使用它。 问题是:这些 PDF 并不总是具有相同的结构,并且从 pdfplumber 读取的表格中的行长度...

如何使用 PHPWord 转换或读取 .doc 文件?

作者:Grimcall 提问时间:7/10/2023

我已经抓取了这个网站和其他网站,但没有找到任何解决方案:我正在尝试使用 PHPOffice/PHPWord 从 .doc 文件中读取文本,但我尝试的所有代码都失败了。我可以很好地阅读 .docx 文件...

文档 AI 可对 pdf 文件中的大量数据进行自动研究

作者:prime 提问时间:7/13/2023

我需要为我的应用程序添加一个功能,允许我的客户从图像文本中提取文本,并将它们解析为可用数据(如 json 格式)并存储它们,以便能够执行更好的数据研究。 这些图像文本是大的pdf文件(~150-50...

PDFMiner 返回错误的 RGB 颜色,还返回 INT 值 0 或 1

作者:Shiva Nandan 提问时间:9/24/2023

LTTextHorizontal。 当我以这种方式迭代 LTChar 时。 char.graphicstate.ncolor,当它为白色时,它返回错误的RGB值,它返回(1,1,1),对于其他pdf...

如何在React.js中提取PDF的内容?

作者:TopTen1310 提问时间:5/16/2023

我正在尝试加载本地存储的PDF文件,然后在没有任何后端的情况下在React.js中提取内容。 我试图从谷歌找到类似的模块,但还没有找到合适的模块。 有许多用于解析 PDF 的节点模块,我可以在后端提...


共10条 当前第1页