根据 data.table 中附加列中的条件对同一列中的多行进行子集化-解网

问：

我正在尝试获取数据的子集，其中包含单个列的两个不同值，这些值与使用 data.table 的第二列匹配。

这感觉是一项相当微不足道的任务，但我在任何地方都找不到这样的例子：

library(data.table)
dat <- data.table(id = c("100", "100", "101", "101", "101", "103", "105", "105"),
                  V1 = c("A", "B", "A", "B", "C", "B", "A", "B"),
                  V2 = c(NA, NA, 20, NA, 30, NA, 30, 30))

我想做的是找到 A 和 B 对于给定 id 都是 NA 的所有实例。

我可以很容易地获得任何一个为真的 id：

dat[(V1 == "A" & is.na(V2)) | (V1 == "B" & is.na(V2)), ] # works as expected

# id V1 V2
# 1: 100  A NA
# 2: 100  B NA
# 3: 101  B NA
# 4: 103  B NA

dat[V1 %in% c("A", "B") & is.na(V2), ] # same as above

但是，如果我尝试将调用与 & 结合起来，它就不起作用

dat[(V1 == "A" & is.na(V2)) & (V1 == "B" & is.na(V2)), ] # empty data table
dat[(V1 == "A" & is.na(V2)) && (V1 == "B" & is.na(V2)), ] # empty data table

我想 data.table 是空的，因为没有 V1 等于 A 和 B 的行，但我尝试过的任何东西都无法接近。

这就是我想要得到的：

# id V1 V2
# 1: 100  A NA
# 2: 100  B NA

我想我需要以某种方式在此处包含 id 信息，但我不清楚如何，因为添加不起作用by =

r data.table 过滤数据操作

dat <- data.frame(id = c("100", "100", "101", "101", "101", "103", "105", "105"),
                  V1 = c("A", "B", "A", "B", "C", "B", "A", "B"),
                  V2 = c(NA, NA, 20, NA, 30, NA, 30, 30))

dat <- dat[(dat$V1 == "A" & is.na(dat$V2)) | (dat$V1 == "B" & is.na(dat$V2)), ] 

#find all id's that exist more than once
non_unique<-as.data.frame(table(dat$id))
non_unique<-non_unique[non_unique$Freq>1,]

dat<-dat[dat$id %in% as.character(non_unique[,1]),]
dat

   id V1 V2
1 100  A NA
2 100  B NA

上一个：按组删除每列中的 NA

下一个：列中的条件值，用于更改另一列同一行中的值

根据 data.table 中附加列中的条件对同一列中的多行进行子集化

Subsetting multiple rows from same column based on condition in additional column in data.table

评论

评论

评论