pyspark 问答列表

运行 Spyder 的快捷方式指定不存在的文件夹

作者:user2153235 提问时间:10/28/2023

就在刚才(2023 年 10 月),我在 Windows 10 上重新安装了 Anaconda 以便安装 Python 3.9、Pyspark 和 Spyder。The Conda(康达酒店) 环境为...

在 2 列上获取非重复元素,并在两列之间有 1:1 的记录,按顺序重复数据删除 pyspark

作者:mouli lee 提问时间:11/13/2023

我有一个包含 2 列的 pyspark 数据帧。我需要获取一个数据帧,该列的前几行中没有任何重复元素。如果一个元素是重复的,那么整行都应该被忽略。 输入数据帧: 列 1 专栏 2 一个 1 B 2...

如何从 sql 表中检索架构(类型和列)并在突触笔记本中的表上强制实施它们?

作者:Herwini 提问时间:11/7/2023

我在 sql 数据库中有几个表。所有这些表都是空的,但具有正确的架构。现在,我在 Azure 数据湖中有相应的表,其中包含数据但架构错误。 我想创建一个表,将数据湖表的数据与 sql 数据库表的架构...

当pyspark数据帧有嵌套列时,如何将NONES转换为空字符串?

作者:Metadata 提问时间:11/10/2023

我有一个带有嵌套列的数据帧,如下所示: df_schema = StructType([ StructField("response", StringType(), True), StructF...

如何使用“动态”模式在pyspark中解析宽松的JSON

作者:Dan Pham 提问时间:11/16/2023

我有一个数据集,其中一列包含一个看起来像“宽松”JSON 格式的字符串(键周围没有双引号)。 #1 我正在寻找一种在 pyspark 中解析它的方法 - 我尝试了 from_json + 模式,但由...

Spark Row 对象的实例化与重载原型不同?

作者:user2153235 提问时间:10/18/2023

中的 Spark 类不包含任何方法,但显示以下重载类型提示:Rowpyspark/sql/types.py__init____new__ @overload def __new__(cls, *ar...

H2O随机森林模型中predValue字段的含义

作者:Vijay Kansal 提问时间:11/14/2023

我在 spark 数据帧上使用方法构建了一个模型,目标列包含值 0 或 1。我分别使用 和 函数下载并打印了它的 mojo 文件。部分此类输出树如下所示。H2ORandomForestEstimato...

在笔记本中将 CSV 转换为 Parquet

作者:organza 提问时间:11/16/2023

我刚刚进入数据世界,并被要求创建一个自定义项目,我需要使用 Notebook (PySpark) 将 CSV 转换为 parquet。到目前为止,我已经把它放在一起,它似乎运行没有错误,但我在 ADL...

计算日历调整

作者:noswear 提问时间:11/15/2023

我有一个带有“日期和交易量”列的数据,如下所示,我正在尝试调整日历,日期是周末日期,因此由于 5 月以 5 月 28 日结束整整一周以来,一些数据被遗漏了,下周与 6 月共享,9 月也是如此。 如何将...

增量表:时间旅行与时间戳截至和版本是否返回相同的结果?

作者:drama 提问时间:11/16/2023

在对增量文件进行时间旅行时,“截至时间戳”和“截至版本”是否返回相同的结果?或者他们中的任何一个更受欢迎、更准确或更出色?...


共98条 当前第3页