Python Pandas：数据缩减采样-解网

问：

我的数据如下所示：

TEST
2012-05-01 00:00:00.203 OFF 0
2012-05-01 00:00:11.203 OFF 0
2012-05-01 00:00:22.203 ON 1
2012-05-01 00:00:33.203 ON 1
2012-05-01 00:00:44.203 OFF 0
TEST
2012-05-02 00:00:00.203 OFF 0
2012-05-02 00:00:11.203 OFF 0
2012-05-02 00:00:22.203 OFF 0
2012-05-02 00:00:33.203 ON 1
2012-05-02 00:00:44.203 ON 1
2012-05-02 00:00:55.203 OFF 0

最终，我希望能够将这样的数据缩减到单个天数，例如使用平均值、最小值、最大值。我无法让它对我的数据工作，并收到以下错误：

TypeError: unhashable type: 'list'

也许它与数据框中的日期格式有关，因为索引线如下所示：

[datetime.datetime(2012, 5, 1, 0, 0, 0, 203000)]   OFF  0

谁能帮忙。到目前为止，我的代码是这样的：

import time
import dateutil.parser
from pandas import *
from pandas.core.datetools import *



t0 = time.clock()

filename = "testdata.dat"

index = []
data = []

with open(filename) as f:
    for line in f:
        if not line.startswith('TEST'):
            line_content =  line.split(' ')

            mydatetime =  dateutil.parser.parse(line_content[0] +  " " + line_content[1])

            del line_content[0] # delete the date
            del line_content[0] # delete the time so that only values remain

            index_row = [mydatetime]
            data_row = []
            for item in line_content:
                data_row.append(item)

            index.append(index_row)
            data.append(data_row)


df = DataFrame(data, index = index)
print df.head()
print df.tail()

print
date_from =  index[0] # first datetime entry in data frame
print date_from
date_to =  index[len(index)-1] #last datetime entry in date frame
print date_to

print date_to[0] - date_from[0]
dayly= DateRange(date_from[0], date_to[0], offset=datetools.DateOffset())
print dayly

grouped = df.groupby(dayly.asof)
#print grouped.mean()
#df2 = df.groupby(daily.asof).agg({'2':np_mean})


time2 = time.clock() - t0
print time2

Python Pandas 下采样

                        switch  value
2012-05-01 00:00:00.203    OFF      0
2012-05-01 00:00:11.203    OFF      0
2012-05-01 00:00:22.203     ON      1
2012-05-01 00:00:33.203     ON      1
2012-05-01 00:00:44.203    OFF      0
2012-05-02 00:00:00.203    OFF      0
2012-05-02 00:00:11.203    OFF      0
2012-05-02 00:00:22.203    OFF      0
2012-05-02 00:00:33.203     ON      1
2012-05-02 00:00:44.203     ON      1
2012-05-02 00:00:55.203    OFF      0

它们确实有一种格式，即时间戳始终存在，但数据列的数量可能会有所不同。到目前为止，我无法使用 read_csv 正确读取时间戳，可能是因为日期和时间之间有一个空格，因此与其他列没有区别。或者让我更具体一点：我已经能够通过从每行创建一个列表，然后将其附加到另一个列表来正确读取时间戳，但我还没有设法将时间戳作为数据帧的索引。

0赞 lbolla 5/31/2012

同样，可以使用，例如：将创建一个包含多列的表，并由 2 个级别组成：第一级是年-月-日，第二级是时间。如果需要，可以将多索引合并到普通索引中（例如：.）read_tablepandas.read_table(buf, sep=' ', index_col=[0,1], header=None)multiindexdf.index = ['%s %s' % (a, b) for a, b in zip(df.index.get_level_values(0), df.index.get_level_values(1))]

0赞 lbolla 5/31/2012

伟大。如果你能批准答案，那么，它就可以关闭了。

上一个：如何从分组数据创建数据框

下一个：如何使用来自另一个 DataFrame 的输入以最佳方式将函数应用于 DataFrame 的所有项？

Python Pandas：数据缩减采样

Python Pandas: Data Downsampling

评论

评论

评论