在 PHP 中从特定的 pdf 区域中提取文本

Extract text from specifica pdf area in PHP

提问人:marco77sa 提问时间:10/23/2023 更新时间:10/29/2023 访问量:73

问:

有没有办法提取部分pdf文档并导出为文本文件? 我有一张通过 pdf 发送给我的发票,我希望有一种方法来“检测”要转换为文本的区域并将值存储到我的数据库中。

我发现了一些将所有文档转换为文本文件的脚本,但它是所有文档,而不是特定部分。

有什么想法吗?

附上pdf样本区样本

我想要的只是黄色的部分。 可能吗?

PHP 解析 PDF数据转换

评论

0赞 Chris Haas 10/23/2023
最好的办法可能是提取所有文本,然后使用正则表达式查找模式。例如,您应该能够查找表格的标题行作为开始,然后查找“小计/税/总计”区域作为结束。
0赞 marco77sa 10/24/2023
感谢您的回复。事实是文档可以更改布局,因此,我应该允许用户原始提取文本的区域......可能吗?
0赞 marco77sa 10/24/2023
@ChrisHaas谢谢。你的建议很有趣。我们可以试一试吗?只是为了更好地理解......提前致谢
0赞 Chris Haas 10/24/2023
要进行演示,我们需要一个实际的 PDF,但不幸的是,我个人没有时间这样做。但是从小处着手,通过文本提取工具(如 pdftotext)运行 PDF 并获取所有内容,然后更新您的问题或创建一个新问题
1赞 Chris Haas 10/24/2023
“我认为更好的方法是允许用户在文本周围画一个矩形”——“该过程应该是自动化的......所以没有用户交互“——这两个语句是相互矛盾的。

答: 暂无答案