Word 如何能够在其他人无法检测到 PDF 结构的情况下如此出色地检测 PDF 结构？有没有一个图书馆可以做到这一点？

How is Word Able to detect PDF structure so well where others fail? Is there a Library that can achieve this?

提问人：Nick 提问时间：3/10/2023 最后编辑：Nick 更新时间：3/10/2023 访问量：39

问：

一段时间以来，我一直对解析 PDF 感兴趣，并取得了不同程度的成功。然而，通常对于 PDF，有用的数据包含在文本中，即表格外部等。但是，如果要从句子中获取数据，则句子不被破坏至关重要。我发现的最好的方法（老实说的唯一方法）是使用 Word，但这是一个看似草率的解决方案，并不总是能正确识别 PDF。

我很欣赏解析 PDF 不是一件小事，但是令我惊讶的是，似乎没有像 word 这样的库/工具可以检测整个句子和格式，即文本是否为粗体或字体大小。

其他命令提示符工具，如XPDF阅读器，非常适合从PDF即时创建文本文件，甚至可以维护布局，但同样无法检测句子是否已断句。我知道没有什么可以实际检测到的，因为 PDF 只是页面上没有关系的单词。

显然，这肯定是一件有点困难的事情，但这就引出了一个问题，单词是如何做到如此出色的？（不是100%，但我遇到过的最好的）

如果 word 可以做到这一点，那么肯定已经在 python 库或类似库中实现了相同的功能吗？也许我太天真了，因为越来越多的 AI API 可以尝试实现这一目标。虽然我仍然觉得与试图解析整个文档的 AI 不同，但我想：

由此在我看来，您可以使用文本文件搜索标题（带有粗体标签）并在两个标题之间捕获文本等，然后在此之间搜索关键字并使用正则表达式提取相关内容。

cpu-word 文本 pdf-解析

0赞 mkl 3/10/2023

我还没有测试过将 PDF 导入 Word。因此，出于兴趣：你说它运行良好。您是否检查过测试文件是否存在偏差？例如，可能有很大一部分测试文件也是从 Word 导出的，这可能会使重新导入变得相当容易。

0赞 Nick 3/11/2023

请参阅：stackoverflow.com/questions/73628493/...

0赞 Nick 3/11/2023

Word 是我遇到过的唯一一个可以识别整个句子的工具（仅限于通常使用工作计算机）。特别是如果从 Acrobat 保存为 word 文档并打开它。话虽如此，我最近在个人电脑上对 python 有了更多的了解，并且可以看到这成为我的一个主要项目。

0赞 Nick 3/11/2023

另请参阅：stackoverflow.com/questions/73416591/... @mkl

0赞 Nick 3/11/2023

你能解释一下你所说的偏见是什么意思吗？

答： 暂无答案