pyspark 问答列表

连接两个 PySpark 数据帧的最有效方法,根据条件透视和填充 NULL

作者:Tobi 提问时间:10/16/2023

我有两个长格式的大型 PySpark 数据帧。 最终表格应采用宽格式。 我不知道什么是最好的方法。 感谢您的支持。 from pyspark.sql import Row from pyspark...

使用 pyspark 解析 .edi 文件

作者:JaniH 提问时间:10/13/2023

我正在尝试使用pyspark解析.edi文件。 我使用以下命令将文件加载到spark_df: spark_df = spark.read.csv(adls_path) 我得到 如何使用PySp...

我无法在pyspark中生成ANSI文件

作者:Flávio Sotto 提问时间:10/5/2023

我正在尝试生成一个使用 ANSI 编码的 txt 文件,但是当我将文件上传到 AWS S2 存储桶时,结果是一个 UTF-8 文件,使用 jupyternotebook 中的 ERM 集群执行此操作。...

Spark 的数组/映射字段的“爆炸”如何是 SELECT 操作?

作者:user2153235 提问时间:10/3/2023

我是 Python a Spark 的新手,目前正在解决这个问题 有关 Spark 对 DataFrame 的数组/映射字段的操作的教程。explode 基于第一部分 1(PySpark 分解数组或...

PySpark 过滤器无法与使用 lambda 功能构建的 True 一起使用

作者:Python Puzzle 提问时间:10/3/2023

我正在调试一个函数,我遇到了一个神秘的事情: 给定一个包含一列 (name_id) 的 PySpark 数据帧,我使用 lambda 函数构建另一个 (is_number) 数据帧,以查看name_...

如何编写可以接受具有可变数量参数的参数的 Pyspark 函数?

作者:SunflowerParty 提问时间:9/28/2023

我编写了一个我想修改的函数,以具有可以接受一个或多个参数的参数,但是我无法使其正常工作。 def get_recent_date(input_df, *partion_col, order_col)...

如何在sparksql查询中使用正则表达式从表中的数据中提取数字

作者:anmol hans 提问时间:9/27/2023

我有一个表,它有一个名为的列,其中包含这种格式的数据actual_result 列中的示例数据,每行值由下面的管道分隔符分隔:actual_result > actual_result ++ |{...

PySpark Tabula-Py Read_PDF(错误:没有名为“org.apache.commons”的模块)

作者:mohamadmaarouf_ 提问时间:9/11/2023

我已经在 Azure 中运行管道 4 个月了,昨晚它突然坏了。我有以下代码: !pip install tabula-py from tabula.io import read_pdf import...

为什么某些方法的文档字符串显示在Spyder中,而其他方法则不显示?

作者:user2153235 提问时间:10/19/2023

我加载了模块:pyspark.sql.functions >>> sys.modules['pyspark.sql.functions'] <module 'pyspark.sql.function...

在 Pyspark 中动态转换数据类型

作者:SHIVAM YADAV 提问时间:9/14/2023

我正在从 PostgresSQL 创建一个 parquet 文件,它的所有内容都标记为 varchar 列。在 ADLS 中获取文件后,我们希望使用 Python/Pyspark 根据 Azure D...


共98条 当前第9页