提问人:Oscar DS 提问时间:8/22/2023 更新时间:8/22/2023 访问量:18
使用 PYSPARK 读取 csv 文件时删除双引号
Removing double quotes when reading csv file with PYSPARK
问:
您好,我正在尝试使用运行 pyspark3 模式的 pyspark 中的逻辑读取 csv 文件。 源文件在标题和字段值中充满了双引号,我想在通过 de spark.read.csv 函数选项或后验处理数据帧时删除这些双引号。
我的源文件如下:
预期输出为:预期输出
注意:我无法通过 spark-shell 解决它,因为服务器中存在技术问题,不允许我读取文件。
使用 sparkreadcsv 函数选项我能做的最好的事情是:输出数据
到目前为止尝试的代码:
df = spark.read.option('inferSchema',True)\
.option('header',True)\
.option('sep',';')\
.option('quote','')\
.csv('Project 1_dataset_bank-full.csv')
我尝试在数据帧上应用一些替换函数,但也没有成功:替换选项1
答: 暂无答案
评论