Tabula pd df 损失数据

Tabula pd df loss data

提问人:Fellipe Zambrano 提问时间:9/10/2023 最后编辑:Joe FerndzFellipe Zambrano 更新时间:9/12/2023 访问量:24

问:

我需要从 PDF 文件中获取表格。

代码是:

pdf=tabula.read_pdf(arquivo, pages=(1,2), lattice=True)

我将两个 df 转换为列表,如下所示:

lista=pdf[1].values.tolist()

lista2=pdf[2].values.tolist()

我的问题是转换丢失了第一行数据帧。

的转换结果是:lista2

"[[**8**,
  'vitamínicos e/ou minerais /\rVitaminas: C (45mg), E (10mg),\rNiacina (16mg), A (600mcg), ac.\rpantotênico (5mg), D (5mcg), B6\r(1,3mg), B1 (1,2mg), B2 (1,3 mg),\rB12 (1mcg), ác. fólico (200mcg),\rbiotina (30mcg): Minerais: cálcio\r(90mg), fósforo (38mg),\rmanganês (45mg), ferro (5mg),\rzinco (5mg), selênio (30 mcg),\rmanganês (1,2mg), selênio\r(30mcg), iodo (100mcg):\rProbiótico: Lactobacillus\racidophilus / COMPRIMIDO /\rSEM MARCA',
  4705050,
  'CP',
  360,
  nan],
 [**9**,
  'vitaminas + minerais /\rpolivitaminas + poliminerais /\rCOMPRIMIDO REVESTIDO\r/ ZIRVIT MULTI - POR MARCA',
  3970019,
  'CP',
  540,
  nan],
 [**10**,
  'suplemento alimentar / óleo de\rmicroalgas e lecitina de soja /\rCÁPSULA / SEM MARCA',
  5717310,
  'CP',
  360,
  nan]]"

当我请求原始来源(之前)熊猫数据帧pdf[2]的价值时,我有:values.tolist

**8**   vitamínicos e/ou minerais /\rVitaminas: C (45m...   4705050 CP  360 NaN
**9**   vitaminas + minerais /\rpolivitaminas + polimi...   3970019 CP  540 NaN
**10**  suplemento alimentar / óleo de\rmicroalgas e l...   5717310 CP  360 NaN"

我在 pd df (7,8,9,10) 中有 4 个产品,当我将其转换为列表时,我丢失了第一个值,产品 ID 7。

知道如何解决这个问题吗? 谢谢。

Pandas DataFrame Tabula PDF-Reader 数据丢失

评论


答: 暂无答案