提问人:Nick 提问时间:3/10/2023 最后编辑:Nick 更新时间:3/10/2023 访问量:39
Word 如何能够在其他人无法检测到 PDF 结构的情况下如此出色地检测 PDF 结构?有没有一个图书馆可以做到这一点?
How is Word Able to detect PDF structure so well where others fail? Is there a Library that can achieve this?
问:
一段时间以来,我一直对解析 PDF 感兴趣,并取得了不同程度的成功。然而,通常对于 PDF,有用的数据包含在文本中,即表格外部等。但是,如果要从句子中获取数据,则句子不被破坏至关重要。我发现的最好的方法(老实说的唯一方法)是使用 Word,但这是一个看似草率的解决方案,并不总是能正确识别 PDF。
我很欣赏解析 PDF 不是一件小事,但是令我惊讶的是,似乎没有像 word 这样的库/工具可以检测整个句子和格式,即文本是否为粗体或字体大小。
其他命令提示符工具,如XPDF阅读器,非常适合从PDF即时创建文本文件,甚至可以维护布局,但同样无法检测句子是否已断句。我知道没有什么可以实际检测到的,因为 PDF 只是页面上没有关系的单词。
显然,这肯定是一件有点困难的事情,但这就引出了一个问题,单词是如何做到如此出色的?(不是100%,但我遇到过的最好的)
如果 word 可以做到这一点,那么肯定已经在 python 库或类似库中实现了相同的功能吗?也许我太天真了,因为越来越多的 AI API 可以尝试实现这一目标。虽然我仍然觉得与试图解析整个文档的 AI 不同,但我想:
- 获取任何 PDF 并检测整个句子(类似于在 Word 中打开 PDF 文件时)
- 检测格式特征、粗体、字体大小等(即使只是句子旁边的标签)
- 导出为文本文件
由此在我看来,您可以使用文本文件搜索标题(带有粗体标签)并在两个标题之间捕获文本等,然后在此之间搜索关键字并使用正则表达式提取相关内容。
答: 暂无答案
评论