提问人:belacile 提问时间:6/2/2023 更新时间:6/2/2023 访问量:76
如何使PDFMiner Six在解析文档时检测项目符号(包括字母数字项目符号)?
How to make PDFMiner Six detect bullet points (including alphanumeric bullets) when parsing documents?
问:
我目前正在使用 PDFMiner.six 为我解析文档,但希望它能够检测项目符号(包括字母数字项目符号,如“a.”、“i.”、“1.”)。目前,它只将它们视为字符,但我想知道我是否在 PDFMiner.six 中缺少某些功能,这些功能可以让我更轻松地确定何时出现一个项目符号或一组项目符号。
我目前的假设是,我只需要编写一个算法来在每个块的开头找到这些特殊字符和子字符串,但我对此相当陌生,并且很想感到惊喜。
答: 暂无答案
评论