使用 PYSPARK 读取 csv 文件时删除双引号

Removing double quotes when reading csv file with PYSPARK

提问人:Oscar DS 提问时间:8/22/2023 更新时间:8/22/2023 访问量:18

问:

您好,我正在尝试使用运行 pyspark3 模式的 pyspark 中的逻辑读取 csv 文件。 源文件在标题和字段值中充满了双引号,我想在通过 de spark.read.csv 函数选项或后验处理数据帧时删除这些双引号。

我的源文件如下:

源数据

预期输出为:预期输出

注意:我无法通过 spark-shell 解决它,因为服务器中存在技术问题,不允许我读取文件。

使用 sparkreadcsv 函数选项我能做的最好的事情是:输出数据

到目前为止尝试的代码:

df = spark.read.option('inferSchema',True)\
 .option('header',True)\
.option('sep',';')\
 .option('quote','')\
 .csv('Project 1_dataset_bank-full.csv')

我尝试在数据帧上应用一些替换函数,但也没有成功:替换选项1

替换选项 2

csv pyspark 双引号

评论

0赞 user2704177 8/25/2023
您使用的函数未定义。您是否忘记在代码开始时导入它们?例如:from pyspark.sql.functions import regexp_replace

答: 暂无答案