Word 如何能够在其他人无法检测到 PDF 结构的情况下如此出色地检测 PDF 结构?有没有一个图书馆可以做到这一点?

How is Word Able to detect PDF structure so well where others fail? Is there a Library that can achieve this?

提问人:Nick 提问时间:3/10/2023 最后编辑:Nick 更新时间:3/10/2023 访问量:39

问:

一段时间以来,我一直对解析 PDF 感兴趣,并取得了不同程度的成功。然而,通常对于 PDF,有用的数据包含在文本中,即表格外部等。但是,如果要从句子中获取数据,则句子不被破坏至关重要。我发现的最好的方法(老实说的唯一方法)是使用 Word,但这是一个看似草率的解决方案,并不总是能正确识别 PDF。

我很欣赏解析 PDF 不是一件小事,但是令我惊讶的是,似乎没有像 word 这样的库/工具可以检测整个句子和格式,即文本是否为粗体或字体大小。

其他命令提示符工具,如XPDF阅读器,非常适合从PDF即时创建文本文件,甚至可以维护布局,但同样无法检测句子是否已断句。我知道没有什么可以实际检测到的,因为 PDF 只是页面上没有关系的单词。

显然,这肯定是一件有点困难的事情,但这就引出了一个问题,单词是如何做到如此出色的?(不是100%,但我遇到过的最好的)

如果 word 可以做到这一点,那么肯定已经在 python 库或类似库中实现了相同的功能吗?也许我太天真了,因为越来越多的 AI API 可以尝试实现这一目标。虽然我仍然觉得与试图解析整个文档的 AI 不同,但我想:

  1. 获取任何 PDF 并检测整个句子(类似于在 Word 中打开 PDF 文件时)
  2. 检测格式特征、粗体、字体大小等(即使只是句子旁边的标签)
  3. 导出为文本文件

由此在我看来,您可以使用文本文件搜索标题(带有粗体标签)并在两个标题之间捕获文本等,然后在此之间搜索关键字并使用正则表达式提取相关内容。

cpu-word 文本 pdf-解析

评论

0赞 mkl 3/10/2023
我还没有测试过将 PDF 导入 Word。因此,出于兴趣:你说它运行良好。您是否检查过测试文件是否存在偏差?例如,可能有很大一部分测试文件也是从 Word 导出的,这可能会使重新导入变得相当容易。
0赞 Nick 3/11/2023
请参阅:stackoverflow.com/questions/73628493/...
0赞 Nick 3/11/2023
Word 是我遇到过的唯一一个可以识别整个句子的工具(仅限于通常使用工作计算机)。特别是如果从 Acrobat 保存为 word 文档并打开它。话虽如此,我最近在个人电脑上对 python 有了更多的了解,并且可以看到这成为我的一个主要项目。
0赞 Nick 3/11/2023
另请参阅:stackoverflow.com/questions/73416591/... @mkl
0赞 Nick 3/11/2023
你能解释一下你所说的偏见是什么意思吗?

答: 暂无答案