提问人:mdein 提问时间:8/18/2023 最后编辑:egleasemdein 更新时间:8/18/2023 访问量:26
读取 .parquet 文件时出现 OOM 错误。我该如何解决这个问题?
OOM error while reading .parquet file. How do I solve this?
问:
我正在从事一个 ETL 项目。为此,我正在尝试读取 .parquet 文件,以便查看、转换数据并上传它。
我一直在失败,因为我在阅读它时总是得到一个“OOM 错误”。
有什么方法可以在本地阅读吗?
这是我目前的代码:
import dask.dataframe as dd
import os
from dask.distributed import Client
def main():
client = Client()
print(f"Dashboard link: {client.dashboard_link}")
current_dir = os.getcwd()
file_path = os.path.join(current_dir, "part-00000-4333534a-3d5-41162-8f14-ee4123233-e000.snappy.parquet")
ddf = dd.read_parquet(file_path, engine='pyarrow').head(100)
print(f"ESTE ES EL FILE REDUCIDO: \n\n{ddf}")
client.close()
if __name__ == '__main__':
main()
我也尝试过使用 pandas 和 dask,也尝试过 fastparquet 引擎。该文件是 1.9 GB(我有 50 个要处理),我的电脑有 8 GB 的 RAM。
答: 暂无答案
评论