如何使PDFMiner Six在解析文档时检测项目符号(包括字母数字项目符号)?

How to make PDFMiner Six detect bullet points (including alphanumeric bullets) when parsing documents?

提问人:belacile 提问时间:6/2/2023 更新时间:6/2/2023 访问量:76

问:

我目前正在使用 PDFMiner.six 为我解析文档,但希望它能够检测项目符号(包括字母数字项目符号,如“a.”、“i.”、“1.”)。目前,它只将它们视为字符,但我想知道我是否在 PDFMiner.six 中缺少某些功能,这些功能可以让我更轻松地确定何时出现一个项目符号或一组项目符号。

我目前的假设是,我只需要编写一个算法来在每个块的开头找到这些特殊字符和子字符串,但我对此相当陌生,并且很想感到惊喜。

python 检测 pdf-解析

评论

1赞 Jorj McKie 6/3/2023
字符是否用作项目符号或编号列表等是代码必须通过“理解”上下文来检测的,并且通常必须基于某些页面布局分析。PDF 本身没有任何内容可以将这些东西暴露为普通字符以外的任何东西。在一般情况下,小矢量图形或 PDF 内联图像也经常被用作要点,而且这种范围超出了 pdfminer、pypdf 等软件包。

答: 暂无答案