data.frame 子集长格式-解网

问：

我想这个问题会有一个非常简单的答案。但这里是。

长格式数据。喜欢这个

d <- data.frame(cbind(numbers = rnorm(10), 
                         year = rep(c(2008, 2009), 5), 
                         name = c("john", "David", "Tom", "Kristin", "Lisa","Eve","David","Tom","Kristin","Lisa")))

如何获取仅包含 2008 年和 2009 年中出现的名称行的新数据帧？（即只有大卫、克里斯汀、丽莎和汤姆）。

提前致谢

R 数据帧

d <- data.frame(cbind(numbers = rnorm(10), 
                      year = rep(c(2008, 2009), 5),
                      name = c("john", "David", "Tom", "Kristin",
                               "Lisa","Eve","David","Tom","Kristin",
                               "Lisa")))
# split data into 2 data.frames (1 for each year)
by.year <- split(d, d$year, drop=T)

# find the names that appear in both years
keep <- intersect(by.year[['2008']]$name, by.year[['2009']]$name)
# Or, if you had several years, use Reduce as a more general solution:
keep <- Reduce(intersect, lapply(by.year, '[[', 'name'))

# show the rows of the original dataset only if their $name field
# is in our 'keep' vector
d[d$name %in% keep,]

data.frame 子集长格式

data.frame subset long format

评论

评论

评论

评论