dask.read_csv比 50k 列的 pandas.read

问：

我有一个包含 1k 行和 50k 列的 csv。

我花了 9 秒来计算所有带有 pandas 的列的最小值

panda_df = pd.read_csv(path, sep=",")           # 8s
mins = panda_df.min(numeric_only=True).values() # < 1s

但是 86 秒的 dask（如果我将文件减少到 10 行，则需要相同的时间）

dask_df = dd.read_csv(path, sep=",", sample=512_000) # 14s
mins = dd.compute(dask_df.min(numeric_only=True))    # 72s

知道如何将 dask 调整得像熊猫一样快吗？ Dask 数据帧仅使用 1 个分区，因此分区时不应有开销。

熊猫 dask read-csv

dask.read_csv比 50k 列的 pandas.read_csv 慢得多