PySpark Tabula-Py Read_PDF(错误:没有名为“org.apache.commons”的模块)

PySpark Tabula-Py Read_PDF (ERROR: No module named 'org.apache.commons')

提问人:mohamadmaarouf_ 提问时间:9/11/2023 更新时间:9/25/2023 访问量:423

问:

我已经在 Azure 中运行管道 4 个月了,昨晚它突然坏了。我有以下代码:

!pip install tabula-py
from tabula.io import read_pdf
import tabula
df = tabula.io.read_pdf(BytesIO(pdf_content), pandas_options={'header': None}, pages=3, stream=True)[0]

我现在突然收到这个错误:

~/cluster-env/env/lib/python3.8/site-packages/tabula/io.py in __init__(self, java_options, silent)
     92 
     93         from java import lang
---> 94         from org.apache.commons import cli
     95         from technology import tabula
     96 

ModuleNotFoundError: No module named 'org.apache.commons'

任何帮助将不胜感激。

Pandas Azure pyspark tabula tabula-py

评论


答:

1赞 jlwwu 9/11/2023 #1

在 Tabula 顺利运行了 6 个月之后,今天在 Databricks 环境中也发生了同样的事情。我的修补程序是安装版本 2.7.0,因为我认为该错误是由今天发布的最新版本 2.8.1 引起的。

评论

0赞 mohamadmaarouf_ 9/12/2023
由于某种原因,它对我不起作用。我以为它会奏效。!pip install tabula-py==2.7.0。我仍然收到同样的错误。
0赞 mohamadmaarouf_ 9/13/2023
它最终对我有用,我只需要创建一个新笔记本并复制我的代码。一定是旧笔记本的一些缓存版本问题。谢谢!!
0赞 Liam Aulph 9/13/2023 #2

使用命令 pip install tabula-py==2.7.0 安装 2.7.0 版也对我有用。

1赞 chezou 9/23/2023 #3

tabula-py 作者在这里。

我发布了 v2.8.2,如果 jpype 有导入问题,则向子进程添加回退。https://pypi.org/project/tabula-py/2.8.2/

评论

0赞 InSync 9/27/2023
Meta 正在讨论这个答案。