PDF 转 CSV 以使用 Tabula

pdf to csv to use tabula

提问人:김민식 提问时间:10/7/2023 最后编辑:김민식 更新时间:10/7/2023 访问量:17

问:

当使用表格将 pdf 文件传输到 csv 文件时,pdf 文件的几页垂直重叠并显示。 例如,如果苹果在(1,a)中,香蕉在(2,b)中,葡萄在(3,c)中 它们中的大多数都完全进去,但有时苹果和香蕉在(1,a)中,葡萄在(2,b)中 我不知道为什么。

df = tabula.read_pdf("sample.pdf", pages='all')[0]      
        tabula.convert_into("sample.pdf", "output.csv", output_format="csv", stream=False, pages='all')
        r_csv = pd.read_csv("output.csv", on_bad_lines='skip') 
        save_xlsx = pd.ExcelWriter("pray.xlsx")     
        r_csv.to_excel(save_xlsx, index = False)

以上是我代码的一部分。我希望得到帮助。

我希望行和列是正确的

csv pdf 表格

评论


答: 暂无答案