如何从数据帧中删除空白/NA 并将值上移-解网

问：

我有一个巨大的数据帧，其中包含值和空白/NA。我想从数据帧中删除空白，并将列中的下一个值向上移动。请考虑以下示例 DataFrame。

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5,4))
df.iloc[1,2] = np.NaN
df.iloc[0,1] = np.NaN
df.iloc[2,1] = np.NaN
df.iloc[2,0] = np.NaN
df

       0           1           2         3
0   1.857476      NaN      -0.462941   -0.600606
1   0.000267   -0.540645    NaN        0.492480
2   NaN           NaN      -0.803889   0.527973
3   0.566922    0.036393   -1.584926   2.278294
4   -0.243182   -0.221294   1.403478   1.574097

我希望我的输出如下

       0             1             2           3
0   1.857476    -0.540645     -0.462941   -0.600606
1   0.000267     0.036393     -0.803889    0.492480
2   0.566922    -0.221294     -1.584926    0.527973
3   -0.243182                  1.403478    2.278294
4                                          1.574097

我希望删除 NaN 并上移下一个值。没有帮助。我尝试了多个循环和if语句并达到了预期的结果，但是有没有更好的方法来完成它。df.shift

蟒蛇熊猫 numpy

np.random.seed(100)
df = pd.DataFrame(np.random.randn(5,4))
df.iloc[1,2] = np.NaN
df.iloc[0,1] = np.NaN
df.iloc[2,1] = np.NaN
df.iloc[2,0] = np.NaN
print (df)
          0         1         2         3
0 -1.749765       NaN  1.153036 -0.252436
1  0.981321  0.514219       NaN -1.070043
2       NaN       NaN -0.458027  0.435163
3 -0.583595  0.816847  0.672721 -0.104411
4 -0.531280  1.029733 -0.438136 -1.118318

df1 = df.apply(lambda x: pd.Series(x.dropna().values))
print (df1)
          0         1         2         3
0 -1.749765  0.514219  1.153036 -0.252436
1  0.981321  0.816847 -0.458027 -1.070043
2 -0.583595  1.029733  0.672721  0.435163
3 -0.531280       NaN -0.438136 -0.104411
4       NaN       NaN       NaN -1.118318

然后，如果需要替换到空白区域，创建混合值的内容 - 带有数字的字符串 - 某些函数可能会被破坏：

df1 = df.apply(lambda x: pd.Series(x.dropna().values)).fillna('')
print (df1)
          0         1         2         3
0  -1.74977  0.514219   1.15304 -0.252436
1  0.981321  0.816847 -0.458027 -1.070043
2 -0.583595   1.02973  0.672721  0.435163
3  -0.53128           -0.438136 -0.104411
4                               -1.118318

7赞 piRSquared 3/30/2017 #2

一种方法
的想法是按以下方式对列进行排序，以便将 s 放在最后。我用来保留非 .最后，我对数组进行切片并重新分配它。我接着说numpynp.isnannp.nankind='mergesort'np.nanfillna

v = df.values
i = np.arange(v.shape[1])
a = np.isnan(v).argsort(0, kind='mergesort')
v[:] = v[a, i]
print(df.fillna(''))

          0         1         2         3
0   1.85748 -0.540645 -0.462941 -0.600606
1  0.000267  0.036393 -0.803889  0.492480
2  0.566922 -0.221294  -1.58493  0.527973
3 -0.243182             1.40348  2.278294
4                                1.574097

如果不想就地更改数据帧

v = df.values
i = np.arange(v.shape[1])
a = np.isnan(v).argsort(0, kind='mergesort')
pd.DataFrame(v[a, i], df.index, df.columns).fillna('')

这样做的重点是利用速度numpy

朴素时间测试

v = df.values
a = [[n]*v.shape[1] for n in range(v.shape[0])]
b = pd.isnull(v).argsort(axis=1, kind = 'mergesort')
# a is a matrix used to reference the row index, 
# b is a matrix used to reference the column index
# taking an entry from a and the respective entry from b (Same index), 
# we have a position that references an entry in v
v[a, b]

一点解释：

a是一个长度列表，它看起来像这样：v.shape[0]

[[0, 0, 0, 0],
 [1, 1, 1, 1],
 [2, 2, 2, 2],
 [3, 3, 3, 3],
 [4, 4, 4, 4],
 ...

这里发生的事情是，是 x ，我已经将 x 和 x 都做了，所以我们要做的是，将中的每个条目配对，以获得行中的元素，元素的值在 in，在中，列的元素值在。因此，如果我们有并且两者都看起来像上面的矩阵，则返回一个矩阵，其中第一行包含的副本，第二行包含的副本，依此类推。vmnabmni,jabi,jai,jbabv[a,b]nv[0][0]nv[1][1]

在解 piRSquared 中，他的是一个列表而不是矩阵。因此，该列表用于时间，即每行一次。同样，我们本可以做到：iv.shape[0]

a = [[n] for n in range(v.shape[0])]
# which looks like 
# [[0],[1],[2],[3]...]
# since we are trying to indicate the row indices of the matrix v as opposed to 
# [0, 1, 2, 3, ...] which refers to column indices

如果有什么不清楚的地方，请告诉我，谢谢:)

3赞 what_am_computer 6/20/2020 #4

作为一个熊猫初学者，我无法立即理解@jezrael背后的原因

df.apply(lambda x: pd.Series(x.dropna().values))

但我发现它通过重置列的索引来工作。df.apply（默认情况下）逐列工作，将每列视为一个系列。使用 df.dropna（）会删除 NaN，但不会更改剩余数字的索引，因此当此列添加回数据帧时，数字会回到其原始位置，因为它们的索引仍然相同，并且空白区域被 NaN 填充，重新创建原始数据帧，但一无所获。

通过重置列的索引，在本例中，将序列更改为数组（使用 .values），然后改回序列（使用 pd.Series），只有所有数字之后的空白处（即在列的底部）用 NaN 填充。同样可以通过以下方式实现

df.apply(lambda x: x.dropna().reset_index(drop = True))

（drop = True） reset_index 可防止旧索引成为新列。

我本来会把这个作为对@jezrael回答的评论，但我的代表还不够高！

上一个：使用 Huggingface 数据集，如何将特定特征设置为 numpy 数组，以便在重新加载时它们是 ndarrays？

下一个：共享文件夹在 Jupyterhub UI 中对现有用户不可见

如何从数据帧中删除空白/NA 并将值上移

How to remove blanks/NA's from dataframe and shift the values up

评论

评论