重新分区不适用于 Spark 中的 xml 文件-解网

问：

我有数据帧，我想将其另存为多个xml文件。这是我的代码：

 employees
                .repartition(col("first_name"))
                .write()
                .option("maxRecordsPerFile", 5)
                .mode(SaveMode.Overwrite)
                .partitionBy("first_name")
                .format("xml")
                .save("C:/spark_output/");

我希望输出看到这样的输出：

spark_output/
  first_name=Alex
    part-00000.xml
    part-00001.xml
  first_name=Mike
    part-00000.xml
    part-00001.xml
  first_name=Nicole
    part-00000.xml
    part-00001.xml

但输出仅包含一个 10 行的文件。

我不明白这是怎么回事？我该如何解决这个问题？

任何建议将不胜感激。谢谢

apache-spark apache-spark-sql databricks spark-java

重新分区不适用于 Spark 中的 xml 文件

repartition not working with xml file in Spark

评论