提问人:mohamadmaarouf_ 提问时间:9/11/2023 更新时间:9/25/2023 访问量:423
PySpark Tabula-Py Read_PDF(错误:没有名为“org.apache.commons”的模块)
PySpark Tabula-Py Read_PDF (ERROR: No module named 'org.apache.commons')
问:
我已经在 Azure 中运行管道 4 个月了,昨晚它突然坏了。我有以下代码:
!pip install tabula-py
from tabula.io import read_pdf
import tabula
df = tabula.io.read_pdf(BytesIO(pdf_content), pandas_options={'header': None}, pages=3, stream=True)[0]
我现在突然收到这个错误:
~/cluster-env/env/lib/python3.8/site-packages/tabula/io.py in __init__(self, java_options, silent)
92
93 from java import lang
---> 94 from org.apache.commons import cli
95 from technology import tabula
96
ModuleNotFoundError: No module named 'org.apache.commons'
任何帮助将不胜感激。
答:
1赞
jlwwu
9/11/2023
#1
在 Tabula 顺利运行了 6 个月之后,今天在 Databricks 环境中也发生了同样的事情。我的修补程序是安装版本 2.7.0,因为我认为该错误是由今天发布的最新版本 2.8.1 引起的。
评论
0赞
mohamadmaarouf_
9/12/2023
由于某种原因,它对我不起作用。我以为它会奏效。!pip install tabula-py==2.7.0。我仍然收到同样的错误。
0赞
mohamadmaarouf_
9/13/2023
它最终对我有用,我只需要创建一个新笔记本并复制我的代码。一定是旧笔记本的一些缓存版本问题。谢谢!!
0赞
Liam Aulph
9/13/2023
#2
使用命令 pip install tabula-py==2.7.0 安装 2.7.0 版也对我有用。
1赞
chezou
9/23/2023
#3
tabula-py 作者在这里。
我发布了 v2.8.2,如果 jpype 有导入问题,则向子进程添加回退。https://pypi.org/project/tabula-py/2.8.2/
评论
0赞
InSync
9/27/2023
Meta 正在讨论这个答案。
评论