提问人:StackUseR 提问时间:3/24/2023 最后编辑:StackUseR 更新时间:3/27/2023 访问量:416
将数据从表格格式的 pdf 中提取到 excel/csv - Amazon textract
Extract data from pdf in table format to excel/csv - Amazon textract
问:
今天,我正在尝试使用 Amazon Textract 将表格从 pdf 文件中提取到 excel 中!最初我以为这将非常简单,因为直到我使用 Java sdk 处理它。但现在我被困住了。我不想使用 lambda,我不想使用 S3 存储桶上传文件。
我需要和尝试过的:将整个表格从多个pdf文件中提取到excel中。
我不想将 pdf 读入文本文件,也不想编写逻辑来填充 excel,我可以在纯 c# 中做到这一点。
这与从键值对中的表中提取数据无关。我已经尝试过:键值对演示。有了这个,我能够以键值格式从图像和 pdf 中获取数据。但是,在浏览了大量文档之后,我了解到,它仅适用于单页图像/pdf,而不适用于包含多页的 pdf。AnalyzeDocumentRequest
StartDocumentTextDetection 我尝试过,但我想这又将 S3 存储桶作为必要参数,以及 SNS、SQS 等。如果我错了,请纠正我。
所以,我卡住的地方:
- 我在 Google 上有很多 Python 和 Java 解决方案,例如:
使用 Amazon textract 将所有表格数据从 PDF 导出到 Excel
不使用 Amazon S3 的 Amazon Textract
如何将 Amazon Textract 与 PDF 文件一起使用 - 再次是 python,并了解了我不确定的有关 boto 的新知识。哈哈!
- 我想在 C#.Net 中实现这一点。我没有得到这方面的适当文档。
- 显然,我已经经历了这一切,但这不是我想要的。
- 不一定,但即使解决方案不使用 S3 存储桶,那也会更好。
如果有人能帮我解决这个问题,那就太好了。提前致谢!
答: 暂无答案
上一个:以特定格式从 pdf 中提取数据
下一个:按位置将一组字母聚类到表格中
评论