尝试将表从容器传递到 pyspark 变量中,并在 select 语句中使用其列
作者:Rchee 提问时间:11/10/2023
我在 ADLS 容器中有多个增量表,对于每个表,我想生成一个脚本,将它们转换为 parquet 文件并显式列出每个表中的列。这是我目前所拥有的,但它并没有创建不同的 select 语句,只是将所有表中...
pyspark 问答列表
作者:Rchee 提问时间:11/10/2023
我在 ADLS 容器中有多个增量表,对于每个表,我想生成一个脚本,将它们转换为 parquet 文件并显式列出每个表中的列。这是我目前所拥有的,但它并没有创建不同的 select 语句,只是将所有表中...
作者:amogha_sharma 提问时间:11/8/2023
我正在使用 5 节点 16gb 机器运行只有 1GB 未压缩 csv 文件的 spark 应用程序,面临非常高的 GC 时间,实际计算只需要 15 分钟和 3 小时+ 对于 GC,这可能是解决这个问题...
作者:Jason 提问时间:3/7/2016
因此,我在 AWS 中有一个 RedHat 系统,在 HDFS 上运行 Spark。现在我想从我的本地机器(即交互式 Python)访问 PySpark。 因此,我安装了Spyder-Py2以连接到...
作者:G_Rivera 提问时间:11/3/2023
从字面上看,我是编程新手,或者至少我是新基础知识,我面临着一个问题,我不知道如何计算我在 PySpark datafrme 中的“周期”。 假设这是 DataFrame: 信 群 一个 0 一个 ...
作者:Herwini 提问时间:11/7/2023
我在 sql 数据库中有几个表。所有这些表都是空的,但具有正确的架构。现在,我在 Azure 数据湖中有相应的表,其中包含数据但架构错误。 我想创建一个表,将数据湖表的数据与 sql 数据库表的架构...
作者:Slite 提问时间:11/2/2023
我目前正在 pyspark 中构建一个转换脚本,这是工作流程: 获取原始 xml 文件 将 XSLT 应用于原始文件,这将生成另一个包含不同表的数据的 XML 将转换后的 xml 加载到多个数据帧 ...
作者:RamK 提问时间:11/2/2023
我不明白为什么它会这样。我想动态转换 DataFrame 新列。但它会抛出错误。就好像我们直接提到的那样,它正在工作。 您的意见将帮助我纠正错误。 input_dict = {"memo":"Non...
作者:zenzo 提问时间:11/1/2023
我有一个如下所示的json文件,我需要读取它并生成一个包含人员属性的表。 { "person":[ [ "name", "Guy" ], [ "age", "25" ], [ ...
作者:user2153235 提问时间:10/28/2023
就在刚才(2023 年 10 月),我在 Windows 10 上重新安装了 Anaconda 以便安装 Python 3.9、Pyspark 和 Spyder。The Conda(康达酒店) 环境为...
作者:mouli lee 提问时间:11/13/2023
我有一个包含 2 列的 pyspark 数据帧。我需要获取一个数据帧,该列的前几行中没有任何重复元素。如果一个元素是重复的,那么整行都应该被忽略。 输入数据帧: 列 1 专栏 2 一个 1 B 2...