dask 问答列表

在 Python Polars 中将函数应用于列内存不足

作者:Lionel Peer 提问时间:1/11/2023

我有一个大型 GIS 数据集 (167x25e6),它是通过 .csv 到现在的 parquet 从 GeoJSON 生成的。这是我第一次真正需要处理内存不足的数据帧,我仍在努力找出 Polars 是...

将字符串转换为 dict,然后访问 key:values???如何在 Python 的<类“dict”>中访问数据?

作者:Linwoodc3 提问时间:8/26/2016

我在访问字典中的数据时遇到问题。 系统:Macbook 2012 Python:Python 3.5.1 :: Continuum Analytics, Inc. 我正在使用从 csv 创建的 d...

使用 GPU 的 Google Colab 上的 Cupy 内存错误 - 但这只是我第二次运行代码

作者:lara_toff 提问时间:8/1/2020

我正在尝试使用 Cupy 对两个大型数组进行矩阵乘法运算,因为它比使用 CPU 快得多(约 100 倍)。我的问题是它第一次运行它时可以工作,但第二次以此类推,它给了我一个内存错误。这是一个循环中的步...

将 XGBoost 与 dask 分布式一起使用时出现值类型错误

作者:lara_toff 提问时间:1/19/2021

这是在我的机器上重现错误的代码: import numpy as np import xgboost as xgb import dask.array as da import dask.distr...

Dask 中的交叉合并/笛卡尔积

作者:Lusian 提问时间:5/17/2023

如何在 dask 中执行与此交叉合并等效的操作? merged_df = pd.merge(df, df, how='cross', suffixes=('', '_y')) 举个例子,假设我有...

将 xarray 变量转换为用于 svd 计算的 dask 数组

作者:Nihilum 提问时间:7/7/2023

我有一个分块数据集,它有一个又高又瘦的变量。 我想计算它的 SVD,但据我所知,xarray 不会在块上这样做。块很重要,否则 SVD 计算会使我的 RAM 过载。 有没有办法将数据集的变量(分块)...

使用 pyarrow dtype 创建 dask 数组

作者:Adrien Pacifico 提问时间:8/21/2023

在 pandas 中,我可以通过以下方式使用 pyarrow dtype 创建一个系列: >>> import pandas as pd >>> s = pd.Series([1,2,3]).as...

在大型数据集上完美训练 sklearn 模型出现流关闭错误

作者:maxx 提问时间:8/28/2023

我正在使用 Prefect 2.11,我想在 Kubernetes 上的大型数据集上并行训练多个 sklearn 模型。但是,级长在创建许多为训练多个模型而创建的任务时关闭了流。请参阅下面的代码以更好...

使用dask.dataframe.read_csv时出现 Unicode 错误

作者:pc404 提问时间:9/19/2023

我在使用时遇到 he 错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xac in position 0: invalid start b...

dask.read_csv比 50k 列的 pandas.read_csv 慢得多

作者:Daniel Pinyol 提问时间:10/5/2023

我有一个包含 1k 行和 50k 列的 csv。 我花了 9 秒来计算所有带有 pandas 的列的最小值 panda_df = pd.read_csv(path, sep=",") # 8s m...


共14条 当前第1页