pyspark 问答列表

PYTHONPATH 未从 CMD 传播到 Spyder

作者:user2153235 提问时间:9/1/2023

我通过发出以下命令在 Anaconda 下安装了 PySpark 在 Conda 提示符下: conda create -n py39 python=3.9 anaconda conda activ...

Pyspark 中的 AutoCast 数据类型

作者:SHIVAM YADAV 提问时间:9/12/2023

我正在从 PostgresSQL 创建一个 parquet 文件,它的所有内容都标记为 varchar 列。在 ADLS 中拥有文件后,我们希望使用 Python/Pyspark 根据 Azure D...

有没有办法访问增量表旧列名?

作者:Roland R. 提问时间:9/7/2023

我有一个表格,上面有客户 ID、creditcard_number和creditcard_type(美国运通卡、万事达卡等) 我正在努力找到一种方法: 使用增量湖函数将列名 creditcard_t...

使用 PYSPARK 读取 csv 文件时删除双引号

作者:Oscar DS 提问时间:8/22/2023

您好,我正在尝试使用运行 pyspark3 模式的 pyspark 中的逻辑读取 csv 文件。 源文件在标题和字段值中充满了双引号,我想在通过 de spark.read.csv 函数选项或后验处理...

使用 fuzzywuzzy 库根据特定列查找 pyspark 数据帧的相似行

作者:DonkeyKong 提问时间:8/17/2023

我正在尝试根据特定列在数据帧中查找“相似”行。例如,假设我们有这个数据—— +---+------+ | id| fruit| +---+------+ | 1| apple| | 2| appl|...

Spark 动态帧显示方法不产生任何结果

作者:PyRaider 提问时间:5/7/2019

因此,我使用 AWS Glue 自动生成的代码从 S3 读取 csv 文件,并通过 JDBC 连接将其写入表。看起来很简单,Job 成功运行,没有错误,但它什么也没写。当我检查 Glue Spark ...

当存在流式聚合时,不支持追加输出模式

作者:Greencolor 提问时间:8/9/2023

我有问题。正如这里提到的,我需要在下面的代码中将Append output mode not supported when there are streaming aggregationsmodifi...

根据 PySpark 中的多个高级条件筛选行

作者:mabramov 提问时间:8/6/2023

目前,我正在对一个数据库进行一些计算,该数据库包含有关借款人如何偿还贷款的信息。 我的目标是创建一个新的数据帧,其中包括符合以下条件的贷款: 借款人 (ID) 至少有 2 笔贷款; 后续每笔贷款均...


共98条 当前第10页