将数据从表格格式的 pdf 中提取到 excel/csv

问：

今天，我正在尝试使用 Amazon Textract 将表格从 pdf 文件中提取到 excel 中！最初我以为这将非常简单，因为直到我使用 Java sdk 处理它。但现在我被困住了。我不想使用 lambda，我不想使用 S3 存储桶上传文件。

我需要和尝试过的：将整个表格从多个pdf文件中提取到excel中。

我不想将 pdf 读入文本文件，也不想编写逻辑来填充 excel，我可以在纯 c# 中做到这一点。

这与从键值对中的表中提取数据无关。我已经尝试过：键值对演示。有了这个，我能够以键值格式从图像和 pdf 中获取数据。但是，在浏览了大量文档之后，我了解到，它仅适用于单页图像/pdf，而不适用于包含多页的 pdf。AnalyzeDocumentRequest

StartDocumentTextDetection 我尝试过，但我想这又将 S3 存储桶作为必要参数，以及 SNS、SQS 等。如果我错了，请纠正我。

所以，我卡住的地方：

如何将 Amazon Textract 与 PDF 文件一起使用 - 再次是 python，并了解了我不确定的有关 boto 的新知识。哈哈！

如果有人能帮我解决这个问题，那就太好了。提前致谢！

python java c# amazon-textract pdf-解析

将数据从表格格式的 pdf 中提取到 excel/csv - Amazon textract