使用表格从 PDF 中抓取表格。获取随机编码输出

Scraping table from a PDF using tabula. Getting random encoded output

提问人:Gallo1999 提问时间:11/10/2023 最后编辑:Maria KGallo1999 更新时间:11/10/2023 访问量:21

问:

这是我的代码,它已经在抓取我想要的区域,但部分输出似乎已被编码。我尝试更改为不同的,例如encoding='Latin1'等,但没有运气。想看看是否有人有任何建议。

import tabula

pdf_path="sample.pdf"

tables = tabula.read_pdf(
    pdf_path,
    pages="2",
    encoding='utf-8',
    relative_area=True,
    relative_columns=True,
    area=[37,10,100,40]
)[0]
print(tables)

tables.to_csv("output.csv", index=False)
tables.to_excel("Exceltest1.xlsx")

输出示例:

Title: {M{$eamgbrteitrle}}

"Date: {N{\*omv 6er, c2h0a2n3t_signed_date_es\_:signer1:date"

我试过与Beautiful Soup合作,但运气不佳。我尝试了以下操作来查看提取的文本

而且文字看起来是一样的。可以尝试 OCR 吗?

import re
from pdfminer.high_level import extract_pages, extract_text

text = extract_text("sample.pdf")
print(text)
Python 提取 白板

评论


答: 暂无答案