连接两个 PySpark 数据帧的最有效方法,根据条件透视和填充 NULL
作者:Tobi 提问时间:10/16/2023
我有两个长格式的大型 PySpark 数据帧。 最终表格应采用宽格式。 我不知道什么是最好的方法。 感谢您的支持。 from pyspark.sql import Row from pyspark...
pyspark 问答列表
作者:Tobi 提问时间:10/16/2023
我有两个长格式的大型 PySpark 数据帧。 最终表格应采用宽格式。 我不知道什么是最好的方法。 感谢您的支持。 from pyspark.sql import Row from pyspark...
作者:JaniH 提问时间:10/13/2023
我正在尝试使用pyspark解析.edi文件。 我使用以下命令将文件加载到spark_df: spark_df = spark.read.csv(adls_path) 我得到 如何使用PySp...
作者:Flávio Sotto 提问时间:10/5/2023
我正在尝试生成一个使用 ANSI 编码的 txt 文件,但是当我将文件上传到 AWS S2 存储桶时,结果是一个 UTF-8 文件,使用 jupyternotebook 中的 ERM 集群执行此操作。...
作者:user2153235 提问时间:10/3/2023
我是 Python a Spark 的新手,目前正在解决这个问题 有关 Spark 对 DataFrame 的数组/映射字段的操作的教程。explode 基于第一部分 1(PySpark 分解数组或...
作者:Python Puzzle 提问时间:10/3/2023
我正在调试一个函数,我遇到了一个神秘的事情: 给定一个包含一列 (name_id) 的 PySpark 数据帧,我使用 lambda 函数构建另一个 (is_number) 数据帧,以查看name_...
作者:SunflowerParty 提问时间:9/28/2023
我编写了一个我想修改的函数,以具有可以接受一个或多个参数的参数,但是我无法使其正常工作。 def get_recent_date(input_df, *partion_col, order_col)...
作者:anmol hans 提问时间:9/27/2023
我有一个表,它有一个名为的列,其中包含这种格式的数据actual_result 列中的示例数据,每行值由下面的管道分隔符分隔:actual_result > actual_result ++ |{...
作者:mohamadmaarouf_ 提问时间:9/11/2023
我已经在 Azure 中运行管道 4 个月了,昨晚它突然坏了。我有以下代码: !pip install tabula-py from tabula.io import read_pdf import...
作者:user2153235 提问时间:10/19/2023
我加载了模块:pyspark.sql.functions >>> sys.modules['pyspark.sql.functions'] <module 'pyspark.sql.function...
作者:SHIVAM YADAV 提问时间:9/14/2023
我正在从 PostgresSQL 创建一个 parquet 文件,它的所有内容都标记为 varchar 列。在 ADLS 中获取文件后,我们希望使用 Python/Pyspark 根据 Azure D...