将行保留在数据框中，对于某些列值的所有组合，这些行在另一列中包含相同的元素-解网

问：

df = pd.DataFrame({'a':['x','x','x','x','x','y','y','y','y','y'],'b':['z','z','z','w','w','z','z','w','w','w'],'c':['c1','c2','c3','c1','c3','c1','c3','c1','c2','c3'],'d':range(1,11)})

   a  b   c   d
0  x  z  c1   1
1  x  z  c2   2
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
8  y  w  c2   9
9  y  w  c3  10

我怎样才能只保留那些对于和的所有组合都包含相同值的行？或者换句话说，如何排除值仅存在于和的某些组合中的行？abccab

例如，只有和存在于和（,,,）的所有组合中，因此输出将是c1c3ab[x,z][x,w][y,z][y,w]

   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

Python Pandas 筛选器组合

unq = [[x, len(df[(df[['a','b','c']].agg(','.join, axis=1)).str.contains(',' + x)]
                   .drop_duplicates())] for x in df['c'].unique()]
keep = [lst[0] for lst in unq if lst[1] == max([lst[1] for lst in unq])]
df = df[df['c'].isin(keep)]
df

   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

7赞 ALollz 1/14/2021 #6

我们可以使用 + 和，然后，这将填充缺少 'c' 组的 ['a'， 'b'] 组。然后，我们将原始 DataFrame 子集为在 dropna 中幸存下来的值。groupbysizeunstackNaNdropnac

df[df.c.isin(df.groupby(['a', 'b', 'c']).size().unstack(-1).dropna(axis=1).columns)]

   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

groupby 操作的结果仅包含存在于的所有唯一组合中的组的列，因此我们只获取 columns 属性。c['a', 'b']

df.groupby(['a', 'b', 'c']).size().unstack(-1).dropna(axis=1)

#c     c1   c3
#a b          
#x w  1.0  1.0
#  z  1.0  1.0
#y w  1.0  1.0
#  z  1.0  1.0

9赞 BENY 1/14/2021 #7

尝试一些差异crosstab

s = pd.crosstab([df['a'],df['b']],df.c).all()
out = df.loc[df.c.isin(s.index[s])]
Out[34]: 
   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

-1赞 Divyaansh Bajpai 1/14/2021 #8

假设有 4 个不同的值，如示例所示：

一个简单的解决方案可以是：

df[df['a'].groupby(df['c']).transform('count').eq(4)]

1赞 Mykola Zotko 1/20/2021 #9

您可以使用 value_counts 并获取和的所有组合：ab

vc = df[['a', 'b']].drop_duplicates().value_counts()

结果：

然后，您可以比较每个组的计数，并筛选出缺少组合的组：vc

df.groupby('c').filter(lambda x: x[['a', 'b']].value_counts().ge(vc).all())

输出：

   a  b   c   d
0  x  z  c1   1
2  x  z  c3   3
3  x  w  c1   4
4  x  w  c3   5
5  y  z  c1   6
6  y  z  c3   7
7  y  w  c1   8
9  y  w  c3  10

上一个：替换部分路径 - Python

下一个：使用 Pandas 重命名数据框列中的元素

将行保留在数据框中，对于某些列值的所有组合，这些行在另一列中包含相同的元素

Keep rows in data frame that, for all combinations of the values of certain columns, contain the same elements in another column

评论

评论

评论