跳过 Python Spark Pyspark Databricks 未知字段异常中的错误记录-解网

问：

我想知道是否有人可能知道如何跳过我们从 json 文件获取的记录

这是错误

[UNKNOWN_FIELD_EXCEPTION。NEW_FIELDS_IN_RECORD_WITH_FILE_PATH] 解析过程中遇到未知字段：这是失败的代码

sent = spark.readStream.format('cloudFiles') \
  .option('cloudFiles.format', 'json') \
  .option('multiline', 'true') \
  .option('cloudFiles.inferColumnTypes', 'true') \
  .option('cloudFiles.schemaLocation', checkpoint_path) \
  .load(raw_files) \
  .withColumn('load_ts', F.current_timestamp()) \
  .writeStream \
  .format('delta') \
  .option('checkpointLocation', checkpoint_path) \
  .trigger(availableNow=True) \
  .option('mergeSchema', 'true') \
  .toTable(b_write_path)

谢谢！

我没有看到任何关于如何修复此错误的文档。

Python Apache Spark 错误处理 Databricks Databricks Databricks-Autoloader

跳过 Python Spark Pyspark Databricks 未知字段异常中的错误记录

Skipping a Bad Record in Python Spark Pyspark Databricks Unknown Field Exception

评论

评论