需要从数据帧中删除具有 NaN 的行 - 但前提是组中还有其他不包含 NaN 的行-解网

问：

我有一个包含数百万行的数据集，所以我宁愿不要使用循环进行暴力破解。可以按如下方式对问题进行建模：

data = {'A': ['I', 'I', 'I', 'I', 'I', 'I', 'S'],
'B': ['J', 'J', 'J', 'J', 'J', 'J', 'J'],
'C': ['K', 'K', 'K', 'K', 'K', 'K', 'K'],
'D': ['L', 'L', 'L', 'L', 'L', 'L', 'T'],
'E': [np.nan, 'O', 'O', np.nan, 'Q', 'Q', np.nan],
'F': ['M', 'M', 'M', 'M', 'M', 'M', 'M'],
'G': ['N', 'N', 'N', np.nan, 'N', 'N', 'N'],
'H': [np.nan, np.nan, 'P', np.nan, np.nan, 'R', np.nan]}

而我正在寻找的结果是：

   A  B  C  D    E  F  G     H
0  I  J  K  L    O  M  N     P
1  I  J  K  L    Q  M  N     R
2  S  J  K  T  NaN  M  N  None

如果我按键分组并根据最后一个条目汇总数据，我会得到：

result_df = df.groupby(['A', 'B', 'C', 'D'], as_index=False, dropna = False).last()

   A  B  C  D     E  F  G     H
0  I  J  K  L     Q  M  N     R
1  S  J  K  T  None  M  N  None

我以为last（）应该只替换NaN行，但是我用df['E'] =='O'丢失了该行。

所以我把 E 列拉进来：

result_df = df.groupby(['A', 'B', 'C', 'D', 'E'], as_index=False, dropna = False).last()

   A  B  C  D    E  F  G     H
0  I  J  K  L    O  M  N     P
1  I  J  K  L    Q  M  N     R
2  I  J  K  L  NaN  M  N  None
3  S  J  K  T  NaN  M  N  None

而且它不会对 df['E'] == NaN 所在的行进行核弹攻击。

Python pandas group-by

需要从数据帧中删除具有 NaN 的行 - 但前提是组中还有其他不包含 NaN 的行

Need to delete rows with NaN from dataframe - but only if there are other rows in the group that don't contain NaN

评论

评论