读取模式不一致的.csv数据-解网

问：

我有一个非常大的CSV文件。我想通过 Pyspark 阅读它，但我无法正确阅读它。

示例 csv 为

"keyvalue","rto","state","maker_model","veh_type","veh_class"
"hnjsnjncjssssmj", "OD", "ODISHA", "BAJAJ AUTO", "Private Vehicle", "Car"
"hnjsnjncjssssjj", "OD", "ODISHA", "BAJAJ AUTO
", "Private Vehicle", "Car"
"hnjsnjncjssssmm", "GO", "GOA", "TATA MOTORS", "Private Vehicle", "Bus"

我想这样读

+---------------+-----+---------+--------------+------------------+---------+
|       keyvalue|  rto|    state|   maker_model|          veh_type|veh_class|
+---------------+-----+---------+--------------+------------------+---------+
|hnjsnjncjssssmj| "OD"| "ODISHA"|  "BAJAJ AUTO"| "Private Vehicle"|    "Car"|
|hnjsnjncjssssjj| "OD"| "ODISHA"|  "BAJAJ AUTO"| "Private Vehicle"|    "Car"|
|hnjsnjncjssssmm| "GO"|    "GOA"| "TATA MOTORS"| "Private Vehicle"|    "Bus"|

但是我的 pyspark 无法正确识别第 2 行，它破坏了它

+--------------------+------+---------+--------------+------------------+---------+
|            keyvalue|   rto|    state|   maker_model|          veh_type|veh_class|
+--------------------+------+---------+--------------+------------------+---------+
|     hnjsnjncjssssmj|  "OD"| "ODISHA"|  "BAJAJ AUTO"| "Private Vehicle"|    "Car"|
|     hnjsnjncjssssjj|  "OD"| "ODISHA"|   "BAJAJ AUTO|              null|     null|
|", "Private Vehicle"| "Car"|     null|          null|              null|     null|
|     hnjsnjncjssssmm|  "GO"|    "GOA"| "TATA MOTORS"| "Private Vehicle"|    "Bus"|
+--------------------+------+---------+--------------+------------------+---------+

我已经在 spark 的读取 csv 函数中尝试了各种配置，但到目前为止没有任何效果。请指导我？

apache-spark pyspark spark-csv csv 解析器

df.show()

+---------------+---+------+------------+---------------+---------+
|       keyvalue|rto| state| maker_model|       veh_type|veh_class|
+---------------+---+------+------------+---------------+---------+
|hnjsnjncjssssmj| OD|ODISHA|  BAJAJ AUTO|Private Vehicle|      Car|
|hnjsnjncjssssjj| OD|ODISHA|BAJAJ AUTO\n|Private Vehicle|      Car|
|hnjsnjncjssssmm| GO|   GOA| TATA MOTORS|Private Vehicle|      Bus|
+---------------+---+------+------------+---------------+---------+

读取模式不一致的.csv数据

Reading .csv data with inconsistent pattern

评论

评论