pyspark 问答列表

排序合并连接策略仍然具有排序步骤,尽管在 pySpark 中对数据进行预排序

作者:nnqh 提问时间:11/12/2023

data = [(1, "Alice", "A"), (3, "Charlie", "A"), (2, "Bob", "B"), (4, "David", "B")] schema = ["id...

pyspark log4j2:如何记录完整的异常堆栈跟踪?

作者:Kashyap 提问时间:3/10/2023

我试过了 logger.error('err', e) logger.error('err', exc_info=e) # syntax for python's logging >>> >>> ...

pyspark 尝试写入 csv 文件时出现 EOF 错误

作者:Caelia 提问时间:7/11/2023

我使用 pyspark 合并了 4 个表,合并过程完成。然后我尝试将数据帧转换为 csv 文件。但是,我收到 EOF 错误。 我尝试合并较小的表,但没有发生此错误。不确定它是否与记忆或其他有关。 ...

当pyspark数据帧有嵌套列时,如何将NONES转换为空字符串?

作者:Metadata 提问时间:11/10/2023

我有一个带有嵌套列的数据帧,如下所示: df_schema = StructType([ StructField("response", StringType(), True), StructF...

H2O随机森林模型中predValue字段的含义

作者:Vijay Kansal 提问时间:11/14/2023

我在 spark 数据帧上使用方法构建了一个模型,目标列包含值 0 或 1。我分别使用 和 函数下载并打印了它的 mojo 文件。部分此类输出树如下所示。H2ORandomForestEstimato...

在笔记本中将 CSV 转换为 Parquet

作者:organza 提问时间:11/16/2023

我刚刚进入数据世界,并被要求创建一个自定义项目,我需要使用 Notebook (PySpark) 将 CSV 转换为 parquet。到目前为止,我已经把它放在一起,它似乎运行没有错误,但我在 ADL...

增量表:时间旅行与时间戳截至和版本是否返回相同的结果?

作者:drama 提问时间:11/16/2023

在对增量文件进行时间旅行时,“截至时间戳”和“截至版本”是否返回相同的结果?或者他们中的任何一个更受欢迎、更准确或更出色?...

Spark Row 对象的实例化与重载原型不同?

作者:user2153235 提问时间:10/18/2023

中的 Spark 类不包含任何方法,但显示以下重载类型提示:Rowpyspark/sql/types.py__init____new__ @overload def __new__(cls, *ar...

如何使用“动态”模式在pyspark中解析宽松的JSON

作者:Dan Pham 提问时间:11/16/2023

我有一个数据集,其中一列包含一个看起来像“宽松”JSON 格式的字符串(键周围没有双引号)。 #1 我正在寻找一种在 pyspark 中解析它的方法 - 我尝试了 from_json + 模式,但由...

计算日历调整

作者:noswear 提问时间:11/15/2023

我有一个带有“日期和交易量”列的数据,如下所示,我正在尝试调整日历,日期是周末日期,因此由于 5 月以 5 月 28 日结束整整一周以来,一些数据被遗漏了,下周与 6 月共享,9 月也是如此。 如何将...


共98条 当前第2页