如何从分组数据创建数据框

How to create a dataframe from grouped data

提问人:user1427057 提问时间:5/31/2012 最后编辑:piRSquareduser1427057 更新时间:1/5/2017 访问量:1051

问:

我有一个数据框(我们称之为“csv”),我想对它进行分组并获取该组第一个元素的值。例:

A   B   C  D
foo bar happy yellow
foo bar sad   green
foo ape last  laugh

我想要这个作为输出:

A   B   C
foo bar happy
foo ape last

我目前这样做:

grp1 = csv.groupby(['A','B'])
lst = [(A,B,csv.ix[group[0]]['C']) for (A,B),group in grp1.groups.items()]
df = DataFrame(lst,columns=['A','B','C'])
df.to_csv('grp.csv',cols=['A','B','C'],index=False)

但这似乎效率低下。我真的必须先创建一个列表,然后从中创建一个列表吗?有没有办法直接创建一个,或者对原始记录进行某种索引或其他操作,以便我可以只处理每个组中的第一条记录?dataframedataframedataframe

Python 熊猫

评论


答:

1赞 lbolla 5/31/2012 #1

您可以使用来定义聚合函数,该函数将只保留列的第一个元素并删除其他元素。aggregate

    In [60]: grp = df.groupby(['A', 'B'])

    In [61]: grp.aggregate({'C': lambda c: c.ix[c.first_valid_index()]})
    Out[61]:
                 C
    A   B  
    foo ape   last
        bar  happy