PySpark GC 问题 - 作业需要 3 个多小时才能完成

PySpark GC issue - job taking more than 3 hrs to finish

提问人:amogha_sharma 提问时间:11/8/2023 最后编辑:amogha_sharma 更新时间:11/9/2023 访问量:38

问:

我正在使用 5 节点 16gb 机器运行只有 1GB 未压缩 csv 文件的 spark 应用程序,面临非常高的 GC 时间,实际计算只需要 15 分钟和 3 小时+ 对于 GC,这可能是解决这个问题的解决方案。

enter image description here

在配置下方启用,但没有改进 spark.worker.cleanup.enabled spark.sql.execution.arrow.pyspark.enabled

apache-spark pyspark apache-spark-sql 垃圾回收 大数据

评论

0赞 samkart 11/9/2023
转换有多复杂?他们可能在这里发挥了作用。
0赞 mazaneicha 11/9/2023
如果您尝试启用 offheap 并为其留出内存,该怎么办?spark.memory.offHeap.enabledspark.memory.offHeap.size=some-gb
0赞 amogha_sharma 11/9/2023
@samkart - 是的,有非常复杂的计算,但在 UI 中,我可以看到计算将在 15 分钟内完成,
0赞 amogha_sharma 11/9/2023
@mazaneicha,我会尝试启用 offHeap,但建议多少 gb,有更多机会得到 offHeap OOM 错误
0赞 user238607 11/10/2023
有大量的日志记录,打印出完成的每一步。添加到每个 DataFrame 转换中。.cache().count()

答: 暂无答案