有效地多次子集 data.table

efficiently subsetting data.table multiple times

提问人:yingw 提问时间:6/28/2016 最后编辑:yingw 更新时间:6/28/2016 访问量:223

问:

我有这种格式的数据

> data = data.table(id = 1:10, date = seq(as.Date("2016-01-01"), by = 1, length = 10))
> data
    id       date
 1:  1 2016-01-01
 2:  2 2016-01-02
 3:  3 2016-01-03
 4:  4 2016-01-04
 5:  5 2016-01-05
 6:  6 2016-01-06
 7:  7 2016-01-07
 8:  8 2016-01-08
 9:  9 2016-01-09
10: 10 2016-01-10

我还有另一个矩阵,它是我希望预制的查询/子集。

> query = data.table(id = c(1,4,7), date_start = c("2016-01-01", "2016-01-01", "2016-01-01"), date_end = c("2016-01-04", "2016-01-02", "2016-01-03"))
> query
   id date_start   date_end
1:  1 2016-01-01 2016-01-04
2:  4 2016-01-01 2016-01-02
3:  7 2016-01-01 2016-01-03

我想做这样的事情:

subset(data, (id == query[1] & date > date_start[1] & date < date_end[1]) | 
       (id == query[2] & date > date_start[2] & date < date_end[2]) |
       (id == query[3] & date > date_start[3] & date < date_end[3]))

是否有自动生成子集查询而不使用 for 循环并重新绑定结果。

谢谢

r data.table 子集 日期范围

评论

0赞 Frank 6/28/2016
您可以在正确设置数据格式后使用(使用列,请参阅 和 )。此问答可能会有所帮助: stackoverflow.com/q/27487949foverlaps(data, query, nomatch=0)IDate?foverlaps?IDate
0赞 yingw 6/28/2016
我认为 Foverlaps 是我正在寻找的,如果你回复作为答案,我将能够接受它。

答:

0赞 Hack-R 6/28/2016 #1
require(data.table)
data = data.table(id = 1:10, date = seq(as.Date("2016-01-01"), by = 1, length = 10))
query = data.table(id = c(1,4,7), date_start = c("2016-01-01", "2016-01-01", 
"2016-01-01"), date_end = c("2016-01-04", "2016-01-02", "2016-01-03"))

首先,您可以加入他们:

data.full <- merge(data,query,by="id", all.x=T)

接下来,如果要排除未引用的观测值,并保留引用的观测值(如果它们落在日期范围内),则可以执行以下操作:query

data.final <- data.full[date >= date_start & date <= date_end,]

data.final
   id       date date_start   date_end
1:  1 2016-01-01 2016-01-01 2016-01-04

或者,如果要保留未引用的记录,并保留引用的记录(如果它们落在日期范围内):query

data.final <- data.full[is.na(date_start) | (date >= date_start & date <= date_end),]
data.final
   id       date date_start   date_end
1:  1 2016-01-01 2016-01-01 2016-01-04
2:  2 2016-01-02         NA         NA
3:  3 2016-01-03         NA         NA
4:  5 2016-01-05         NA         NA
5:  6 2016-01-06         NA         NA
6:  8 2016-01-08         NA         NA
7:  9 2016-01-09         NA         NA
8: 10 2016-01-10         NA         NA

评论

1赞 talat 6/28/2016
里面你不需要[.data.tabledata.full$
1赞 Hack-R 6/28/2016
@docendodiscimus 哦,这是真的。当我写这篇文章时,我什至没有真正考虑过它是一个 data.table。幸运的是,它仍然以这种方式工作,但您的评论是正确的。我继续更新了它。
5赞 Frank 6/28/2016 #2

如果我们稍微转换 OP 的数据以获得

library(data.table)
data = setDT(structure(list(id = 1:10, date = structure(16801:16810, class = c("IDate", 
"Date")), date2 = structure(16801:16810, class = c("IDate", "Date"
))), .Names = c("id", "date", "date2"), row.names = c(NA, -10L
), class = c("data.table", "data.frame"), sorted = c("id", 
"date", "date2")))

query = setDT(structure(list(id = c(1, 4, 7), date_start = 
structure(c(16801L, 
16801L, 16801L), class = c("IDate", "Date")), date_end = structure(c(16804L, 
16802L, 16803L), class = c("IDate", "Date"))), .Names = c("id", 
"date_start", "date_end"), row.names = c(NA, -3L), class = c("data.table", 
"data.frame"), sorted = c("id", 
"date_start", "date_end")))

...那么我们可以像foverlaps

foverlaps(data, query, nomatch=0)
#    id date_start   date_end       date      date2
# 1:  1 2016-01-01 2016-01-04 2016-01-01 2016-01-01

对于这种方法,我认为在合并之前需要采取以下步骤:

  • 将所有日期都设置为 SIDate
  • 在主数据中创建额外的日期列
  • 设置每个表上的键

评论

0赞 Frank 6/28/2016
欢迎任何更正。我实际上用得不多。foverlaps
3赞 Arun 6/28/2016 #3

当前开发版本中,您可以直接执行连接,如下所示:non-equi

# data.table v1.9.7+
data[query, .(id, x.date), on=.(id, date>=date_start, date<=date_end)]

如有必要,请添加以删除结果中不匹配的行。nomatch=0L

目前是必要的,直到我弄清楚非等价联接的默认输出应该是什么样子。.(id, x.date)

评论

0赞 yingw 6/29/2016
与此相关的是,有没有办法进行查询-查询联接并删除对角线(与自身完全匹配?