pyspark 问答列表

尝试将表从容器传递到 pyspark 变量中,并在 select 语句中使用其列

作者:Rchee 提问时间:11/10/2023

我在 ADLS 容器中有多个增量表,对于每个表,我想生成一个脚本,将它们转换为 parquet 文件并显式列出每个表中的列。这是我目前所拥有的,但它并没有创建不同的 select 语句,只是将所有表中...

PySpark GC 问题 - 作业需要 3 个多小时才能完成

作者:amogha_sharma 提问时间:11/8/2023

我正在使用 5 节点 16gb 机器运行只有 1GB 未压缩 csv 文件的 spark 应用程序,面临非常高的 GC 时间,实际计算只需要 15 分钟和 3 小时+ 对于 GC,这可能是解决这个问题...

使用 Spyder python 连接到远程计算机时出现问题

作者:Jason 提问时间:3/7/2016

因此,我在 AWS 中有一个 RedHat 系统,在 HDFS 上运行 Spark。现在我想从我的本地机器(即交互式 Python)访问 PySpark。 因此,我安装了Spyder-Py2以连接到...

在不移动行的情况下对具有特定条件的行进行计数 (PySpark)

作者:G_Rivera 提问时间:11/3/2023

从字面上看,我是编程新手,或者至少我是新基础知识,我面临着一个问题,我不知道如何计算我在 PySpark datafrme 中的“周期”。 假设这是 DataFrame: 信 群 一个 0 一个 ...

如何从 sql 表中检索架构(类型和列)并在突触笔记本中的表上强制实施它们?

作者:Herwini 提问时间:11/7/2023

我在 sql 数据库中有几个表。所有这些表都是空的,但具有正确的架构。现在,我在 Azure 数据湖中有相应的表,其中包含数据但架构错误。 我想创建一个表,将数据湖表的数据与 sql 数据库表的架构...

具有不一致列的 pyspark 数据帧的字典

作者:Slite 提问时间:11/2/2023

我目前正在 pyspark 中构建一个转换脚本,这是工作流程: 获取原始 xml 文件 将 XSLT 应用于原始文件,这将生成另一个包含不同表的数据的 XML 将转换后的 xml 加载到多个数据帧 ...

为什么变量不能用于Pyspark中的数据类型转换

作者:RamK 提问时间:11/2/2023

我不明白为什么它会这样。我想动态转换 DataFrame 新列。但它会抛出错误。就好像我们直接提到的那样,它正在工作。 您的意见将帮助我纠正错误。 input_dict = {"memo":"Non...

Pyspark - 如何读取带有嵌套数组的 json 作为“column-row”或“key-value”

作者:zenzo 提问时间:11/1/2023

我有一个如下所示的json文件,我需要读取它并生成一个包含人员属性的表。 { "person":[ [ "name", "Guy" ], [ "age", "25" ], [ ...

运行 Spyder 的快捷方式指定不存在的文件夹

作者:user2153235 提问时间:10/28/2023

就在刚才(2023 年 10 月),我在 Windows 10 上重新安装了 Anaconda 以便安装 Python 3.9、Pyspark 和 Spyder。The Conda(康达酒店) 环境为...

在 2 列上获取非重复元素,并在两列之间有 1:1 的记录,按顺序重复数据删除 pyspark

作者:mouli lee 提问时间:11/13/2023

我有一个包含 2 列的 pyspark 数据帧。我需要获取一个数据帧,该列的前几行中没有任何重复元素。如果一个元素是重复的,那么整行都应该被忽略。 输入数据帧: 列 1 专栏 2 一个 1 B 2...


共98条 当前第4页