当存在流式聚合时，不支持追加输出模式-解网

问：

我有问题。正如这里提到的，我需要在下面的代码中将Append output mode not supported when there are streaming aggregationsmodifiedongroupby

agg = df.groupBy("id","modifiedon").agg(max("modifiedon").alias("modifiedon"))

from pyspark.sql.functions import max
df = df.dropDuplicates()
df = df.withWatermark("modifiedon", "1 day")
agg = df.groupBy("id").agg(max("modifiedon").alias("modifiedon"))
final =df.join(agg, on=["id", "modifiedon"], how="inner")
dfUpdates = final.withColumnRenamed("id","BK_id")

但这会产生问题，因为其中仍然包含重复的 s。由于我没有在groupby中添加该列，因此以后我遇到了执行增量表的问题。finalIdmerge into

final.writeStream.format("delta").foreachBatch(update_insert).option("checkpointLocation", checkpoint_directory).trigger(availableNow=True).start("abfss://[email protected]/D365/msdyn_workorder_autoloader_nodups")

Azure Pyspark Databricks 自动加载

当存在流式聚合时，不支持追加输出模式

Append output mode not supported when there are streaming aggregations

评论