将数据从表格格式的 pdf 中提取到 excel/csv - Amazon textract

Extract data from pdf in table format to excel/csv - Amazon textract

提问人:StackUseR 提问时间:3/24/2023 最后编辑:StackUseR 更新时间:3/27/2023 访问量:416

问:

今天,我正在尝试使用 Amazon Textract 将表格从 pdf 文件中提取到 excel 中!最初我以为这将非常简单,因为直到我使用 Java sdk 处理它。但现在我被困住了。我不想使用 lambda,我不想使用 S3 存储桶上传文件。

我需要和尝试过的:将整个表格从多个pdf文件中提取到excel中。

我不想将 pdf 读入文本文件,也不想编写逻辑来填充 excel,我可以在纯 c# 中做到这一点。

这与从键值对中的表中提取数据无关。我已经尝试过:键值对演示。有了这个,我能够以键值格式从图像和 pdf 中获取数据。但是,在浏览了大量文档之后,我了解到,它仅适用于单页图像/pdf,而不适用于包含多页的 pdf。AnalyzeDocumentRequest

StartDocumentTextDetection 我尝试过,但我想这又将 S3 存储桶作为必要参数,以及 SNS、SQS 等。如果我错了,请纠正我。

所以,我卡住的地方

  • 我在 Google 上有很多 Python 和 Java 解决方案,例如:

使用 Amazon textract 将所有表格数据从 PDF 导出到 Excel

不使用 Amazon S3 的 Amazon Textract

如何将 Amazon Textract 与 PDF 文件一起使用 - 再次是 python,并了解了我不确定的有关 boto 的新知识。哈哈!

  • 我想在 C#.Net 中实现这一点。我没有得到这方面的适当文档。
  • 显然,我已经经历了这一切,但这不是我想要的。
  • 不一定,但即使解决方案不使用 S3 存储桶,那也会更好。

如果有人能帮我解决这个问题,那就太好了。提前致谢!

python java c# amazon-textract pdf-解析

评论

0赞 StackUseR 3/25/2023
哈哈,你说得对@KJ。我的错。更正了它。我的意思是我知道如何从pdf中读取/提取数据。但是使用 textract,我发现这很困难。

答: 暂无答案