使用 iso-8859-1 文件读取 CSV 和文本文件的 Spark 的不同行为-解网

问：

问题：我在使用文本文件进行编码转换时遇到了问题，当我使用 csv 文件时不会发生这个问题。

操作系统：Ubuntu的 23.10

Scala：2.13.12

火花：3.5.0

法典：

package sct

import org.apache.spark.sql.{DataFrame, DataFrameReader, Dataset, SparkSession}

object EncodingApp {
  def main(args: Array[String]): Unit = {
    val inFile: String = "ISO_8859_1.txt" // iso-8859-1 encoded file with only one line: "José, André"
    val spark: SparkSession = SparkSession.builder.appName("Encoding Application")
      .master("local[*]").getOrCreate()
    val reader: DataFrameReader = spark.read.option("encoding", "ISO-8859-1")

    val text: Dataset[String] = reader.textFile(inFile)
    val csv: DataFrame = reader.csv(inFile)

    text.show()
    csv.show()

    spark.close()
    spark.stop()
  }
}

输出：

+-----------+
|      value|
+-----------+
|Jos�, Andr�|
+-----------+

+----+------+
| _c0|   _c1|
+----+------+
|José| André|
+----+------+

我做错了什么？

Scala Apache Spark 字符编码

使用 iso-8859-1 文件读取 CSV 和文本文件的 Spark 的不同行为

Different behavior of Spark reading CSV and text file using iso-8859-1 file

评论

评论