读取 .parquet 文件时出现 OOM 错误。我该如何解决这个问题?

OOM error while reading .parquet file. How do I solve this?

提问人:mdein 提问时间:8/18/2023 最后编辑:egleasemdein 更新时间:8/18/2023 访问量:26

问:

我正在从事一个 ETL 项目。为此,我正在尝试读取 .parquet 文件,以便查看、转换数据并上传它。
我一直在失败,因为我在阅读它时总是得到一个“OOM 错误”。

有什么方法可以在本地阅读吗?

这是我目前的代码:

import dask.dataframe as dd
import os
from dask.distributed import Client

def main():

    client = Client() 
    print(f"Dashboard link: {client.dashboard_link}")

    current_dir = os.getcwd()
    file_path = os.path.join(current_dir, "part-00000-4333534a-3d5-41162-8f14-ee4123233-e000.snappy.parquet")

    ddf = dd.read_parquet(file_path, engine='pyarrow').head(100)

    print(f"ESTE ES EL FILE REDUCIDO: \n\n{ddf}")

    client.close()

if __name__ == '__main__':
    main()

我也尝试过使用 pandas 和 dask,也尝试过 fastparquet 引擎。该文件是 1.9 GB(我有 50 个要处理),我的电脑有 8 GB 的 RAM。

内存不足 ETL Parquet 数据工程 OOM

评论


答: 暂无答案