提问人:Dhruva Kartik 提问时间:9/28/2023 更新时间:9/28/2023 访问量:36
射线数据读取似乎不是并行运行的
Ray data read does not seem to run in parallel
问:
当我实现这一点时,
dataset = ray.data.read_csv(s3_bucket_name+'/'+s3_folder_path_prefix+'/',partition_filter=partition_filter,filesystem=s3,convert_options=convert_options)
它有效,但读取只是不断暂停或进行得很慢。但偶尔它会突然向前推进。我在顶部监视此进程,我看到很多进程处于睡眠状态,只有少数进程在运行。有时它们中的很多开始运行,这就是读取进度条向前移动的时候。
我正在使用 64 个 CPU 实例,并使用所有这些实例来读取数据。因此,我的数据读取功能非常慢。这是一个问题还是应该更改某些参数?一个简单的多处理读取函数似乎比这快得多。
我希望所有进程都并行运行。但看起来他们处于睡眠状态。
答: 暂无答案
评论