pyspark/Synapse/python -- 数据帧联合运行缓慢

pyspark/Synapse/python -- Dataframe union is running slow

提问人:Wasim Syed 提问时间:11/7/2023 最后编辑:James ZWasim Syed 更新时间:11/7/2023 访问量:20

问:

我有六个数据帧的联合,每个数据帧有近 200 列。所有 6 个数据帧中所有记录的总和为 90,000 条记录。工会需要 15 分钟以上才能完成。

我尝试过在数据帧上缓存(),也尝试过覆盖数据帧以临时查看 SQL 并缓存它们,但处理速度没有提高。

法典:

df_final=df_Dedup_final_part1.union(df_Dedup_final_part2).union(df_Dedup_final_part3).union(df_Dedup_final_part4).union(df_Dedup_final_part5).union(df_Dedup_final_part6)
数据帧 性能 联合

评论


答: 暂无答案