使用表格从 PDF 中抓取表格。获取随机编码输出-解网

问：

这是我的代码，它已经在抓取我想要的区域，但部分输出似乎已被编码。我尝试更改为不同的，例如encoding='Latin1'等，但没有运气。想看看是否有人有任何建议。

import tabula

pdf_path="sample.pdf"

tables = tabula.read_pdf(
    pdf_path,
    pages="2",
    encoding='utf-8',
    relative_area=True,
    relative_columns=True,
    area=[37,10,100,40]
)[0]
print(tables)

tables.to_csv("output.csv", index=False)
tables.to_excel("Exceltest1.xlsx")

输出示例：

Title: {M{$eamgbrteitrle}}

"Date: {N{\*omv 6er, c2h0a2n3t_signed_date_es\_:signer1:date"

我试过与Beautiful Soup合作，但运气不佳。我尝试了以下操作来查看提取的文本

而且文字看起来是一样的。可以尝试 OCR 吗？

import re
from pdfminer.high_level import extract_pages, extract_text

text = extract_text("sample.pdf")
print(text)

Python 提取白板

使用表格从 PDF 中抓取表格。获取随机编码输出

Scraping table from a PDF using tabula. Getting random encoded output

评论