dask知识经验-解网

作者：Lionel Peer 提问时间：1/11/2023

我有一个大型 GIS 数据集（167x25e6），它是通过 .csv 到现在的 parquet 从 GeoJSON 生成的。这是我第一次真正需要处理内存不足的数据帧，我仍在努力找出 Polars 是...

作者：Linwoodc3 提问时间：8/26/2016

我在访问字典中的数据时遇到问题。系统：Macbook 2012 Python：Python 3.5.1 ：： Continuum Analytics， Inc. 我正在使用从 csv 创建的 d...

作者：lara_toff 提问时间：8/1/2020

我正在尝试使用 Cupy 对两个大型数组进行矩阵乘法运算，因为它比使用 CPU 快得多（约 100 倍）。我的问题是它第一次运行它时可以工作，但第二次以此类推，它给了我一个内存错误。这是一个循环中的步...

作者：lara_toff 提问时间：1/19/2021

这是在我的机器上重现错误的代码： import numpy as np import xgboost as xgb import dask.array as da import dask.distr...

作者：Lusian 提问时间：5/17/2023

如何在 dask 中执行与此交叉合并等效的操作？ merged_df = pd.merge(df, df, how='cross', suffixes=('', '_y')) 举个例子，假设我有...

作者：Nihilum 提问时间：7/7/2023

我有一个分块数据集，它有一个又高又瘦的变量。我想计算它的 SVD，但据我所知，xarray 不会在块上这样做。块很重要，否则 SVD 计算会使我的 RAM 过载。有没有办法将数据集的变量（分块）...

作者：Adrien Pacifico 提问时间：8/21/2023

在 pandas 中，我可以通过以下方式使用 pyarrow dtype 创建一个系列： >>> import pandas as pd >>> s = pd.Series([1,2,3]).as...

作者：maxx 提问时间：8/28/2023

我正在使用 Prefect 2.11，我想在 Kubernetes 上的大型数据集上并行训练多个 sklearn 模型。但是，级长在创建许多为训练多个模型而创建的任务时关闭了流。请参阅下面的代码以更好...

作者：pc404 提问时间：9/19/2023

我在使用时遇到 he 错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xac in position 0: invalid start b...

作者：Daniel Pinyol 提问时间：10/5/2023

我有一个包含 1k 行和 50k 列的 csv。我花了 9 秒来计算所有带有 pandas 的列的最小值 panda_df = pd.read_csv(path, sep=",") # 8s m...