如何使PDFMiner Six在解析文档时检测项目符号（包括字母数字项目符号）？-解网

问：

我目前正在使用 PDFMiner.six 为我解析文档，但希望它能够检测项目符号（包括字母数字项目符号，如“a.”、“i.”、“1.”）。目前，它只将它们视为字符，但我想知道我是否在 PDFMiner.six 中缺少某些功能，这些功能可以让我更轻松地确定何时出现一个项目符号或一组项目符号。

我目前的假设是，我只需要编写一个算法来在每个块的开头找到这些特殊字符和子字符串，但我对此相当陌生，并且很想感到惊喜。

python 包检测 pdf-解析

字符是否用作项目符号或编号列表等是代码必须通过“理解”上下文来检测的，并且通常必须基于某些页面布局分析。PDF 本身没有任何内容可以将这些东西暴露为普通字符以外的任何东西。在一般情况下，小矢量图形或 PDF 内联图像也经常被用作要点，而且这种范围超出了 pdfminer、pypdf 等软件包。

答： 暂无答案

如何使PDFMiner Six在解析文档时检测项目符号（包括字母数字项目符号）？