在 Python Polars 中将函数应用于列内存不足
作者:Lionel Peer 提问时间:1/11/2023
我有一个大型 GIS 数据集 (167x25e6),它是通过 .csv 到现在的 parquet 从 GeoJSON 生成的。这是我第一次真正需要处理内存不足的数据帧,我仍在努力找出 Polars 是...
dask 问答列表
作者:Lionel Peer 提问时间:1/11/2023
我有一个大型 GIS 数据集 (167x25e6),它是通过 .csv 到现在的 parquet 从 GeoJSON 生成的。这是我第一次真正需要处理内存不足的数据帧,我仍在努力找出 Polars 是...
作者:Linwoodc3 提问时间:8/26/2016
我在访问字典中的数据时遇到问题。 系统:Macbook 2012 Python:Python 3.5.1 :: Continuum Analytics, Inc. 我正在使用从 csv 创建的 d...
作者:lara_toff 提问时间:8/1/2020
我正在尝试使用 Cupy 对两个大型数组进行矩阵乘法运算,因为它比使用 CPU 快得多(约 100 倍)。我的问题是它第一次运行它时可以工作,但第二次以此类推,它给了我一个内存错误。这是一个循环中的步...
作者:lara_toff 提问时间:1/19/2021
这是在我的机器上重现错误的代码: import numpy as np import xgboost as xgb import dask.array as da import dask.distr...
作者:Lusian 提问时间:5/17/2023
如何在 dask 中执行与此交叉合并等效的操作? merged_df = pd.merge(df, df, how='cross', suffixes=('', '_y')) 举个例子,假设我有...
作者:Nihilum 提问时间:7/7/2023
我有一个分块数据集,它有一个又高又瘦的变量。 我想计算它的 SVD,但据我所知,xarray 不会在块上这样做。块很重要,否则 SVD 计算会使我的 RAM 过载。 有没有办法将数据集的变量(分块)...
作者:Adrien Pacifico 提问时间:8/21/2023
在 pandas 中,我可以通过以下方式使用 pyarrow dtype 创建一个系列: >>> import pandas as pd >>> s = pd.Series([1,2,3]).as...
作者:maxx 提问时间:8/28/2023
我正在使用 Prefect 2.11,我想在 Kubernetes 上的大型数据集上并行训练多个 sklearn 模型。但是,级长在创建许多为训练多个模型而创建的任务时关闭了流。请参阅下面的代码以更好...
作者:pc404 提问时间:9/19/2023
我在使用时遇到 he 错误UnicodeDecodeError: 'utf-8' codec can't decode byte 0xac in position 0: invalid start b...
作者:Daniel Pinyol 提问时间:10/5/2023
我有一个包含 1k 行和 50k 列的 csv。 我花了 9 秒来计算所有带有 pandas 的列的最小值 panda_df = pd.read_csv(path, sep=",") # 8s m...