提问人:amogha_sharma 提问时间:11/8/2023 最后编辑:amogha_sharma 更新时间:11/9/2023 访问量:38
PySpark GC 问题 - 作业需要 3 个多小时才能完成
PySpark GC issue - job taking more than 3 hrs to finish
问:
我正在使用 5 节点 16gb 机器运行只有 1GB 未压缩 csv 文件的 spark 应用程序,面临非常高的 GC 时间,实际计算只需要 15 分钟和 3 小时+ 对于 GC,这可能是解决这个问题的解决方案。
在配置下方启用,但没有改进 spark.worker.cleanup.enabled spark.sql.execution.arrow.pyspark.enabled
答: 暂无答案
评论
spark.memory.offHeap.enabled
spark.memory.offHeap.size=some-gb
.cache().count()