PDF 解析包不能解析这个 PDF 的什么？-解网

问：

我有一个 PDF 文档，我正在尝试将其解析为文本。该文件是非营利性财务文件公共领域的一部分，可以安全共享。

我尝试使用名为 pdf-parse 的通用 NPM 包解析文档，但它不输出任何文本。

JavaScript 代码：

const fs = require('fs');
const pdf = require('pdf-parse');

let dataBuffer = fs.readFileSync('./sample-one-page.pdf');

pdf(dataBuffer).then(function(data) {
    console.log(data.numpages);
    console.log(data.numrender);
    console.log(data.info);
    console.log(data.metadata); 
    console.log(data.version);
    console.log(data.text); 
});

该脚本会准确检测页数和所有其他元数据，但不会分析文本。运行此脚本的输出如下所示。

1
1
{
  PDFFormatVersion: '1.3',
  IsAcroFormPresent: false,
  IsXFAPresent: false,
  Title: 'PDF TIFF Wrapper',
  Author: 'Awesome Donald',
  Creator: 'ServiceFileCopy',
  Producer: 'macOS Version 13.3.1 (Build 22E261) Quartz PDFContext',
  CreationDate: "D:20230504152855Z00'00'",
  ModDate: "D:20230504152855Z00'00'"
}
null
1.10.100

我已经验证了该脚本适用于其他 PDF 文档，并且我还使用 Python 库复制了该问题，用于 PDF 解析（https://pypi.org/project/pypdf/）。

此文档是否有阻止文本提取的内容？

节点 .js PDF 解析

PDF 解析包不能解析这个 PDF 的什么？

What can't this PDF be parsed by PDF parsing packages?

评论