从数据框中提取特定列

Extracting specific columns from a data frame

提问人:Aren Cambre 提问时间:4/10/2012 最后编辑:M--Aren Cambre 更新时间:6/30/2020 访问量:1642440

问:

我有一个包含 6 列的 R 数据帧,我想创建一个只有 3 列的新数据帧。

假设我的数据框是 ,并且我想提取列 、 和 ,这是我唯一能弄清楚的命令:dfABE

 data.frame(df$A,df$B,df$E)

有没有更紧凑的方法?

数据帧 R-常见问题解答

评论

5赞 7/26/2022
select(df, c('A','B','C'))

答:

518赞 Joshua Ulrich 4/10/2012 #1

您可以使用列名向量进行子集。我非常喜欢这种方法,而不是那些将列名视为对象名称的方法(例如),尤其是在函数、包或应用程序中编程时。subset()

# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[c("A","B","E")]

请注意,没有逗号(即它不是逗号)。这是因为返回的是向量,而不是数据帧。但将始终返回一个数据帧。df[,c("A","B","C")]df[,"A"]df["A"]

str(df["A"])
## 'data.frame':    1 obs. of  1 variable:
## $ A: int 1
str(df[,"A"])  # vector
##  int 1

感谢 David Dorchies 指出它返回的是向量而不是 data.frame,感谢 Antoine Fabri 为我的原始解决方案(下图)提出了一个更好的替代方案(上图)。df[,"A"]

# subset (original solution--not recommended)
df[,c("A","B","E")]  # returns a data.frame
df[,"A"]             # returns a vector

评论

4赞 Aren Cambre 4/10/2012
这给出了错误。object of type 'closure' is not subsettable
24赞 Joshua Ulrich 4/10/2012
@ArenCambre:那么你的 data.frame 并没有真正命名。 也是 stats 包中的一个函数。dfdf
5赞 tumultous_rooster 1/20/2015
@ArenCambre: 2.bp.blogspot.com/-XU9PduVhq-I/Um-Y6e19jZI/AAAAAAAADfI/...
2赞 Joshua Ulrich 6/27/2015
@Cina:因为是语法错误。并说,“, ,也可以是负整数,表示要从选择中省略的元素/切片。-"A"?Extractij...
8赞 David Dorchies 7/27/2016
这种语法存在一个问题,因为如果我们只提取一列 R,则返回一个向量而不是一个数据帧,这可能是不需要的: .使用没有这个缺点。> df[,c("A")][1] 1subset
88赞 Henry 4/10/2012 #2

有两个明显的选择:约书亚·乌尔里希(Joshua Ulrich)的或df[,c("A","B","E")]

df[,c(1,2,5)]

> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> df
  A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
  A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
  A B E
1 1 3 8
2 2 4 8
112赞 Stéphane Laurent 4/10/2012 #3

这是 subset() 函数的作用:

> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9)) 
> subset(dat, select=c("A", "B"))
  A B
1 1 3
2 2 4

评论

0赞 Rafael_Espericueta 11/29/2016
当我尝试这样做时,使用我的数据,我收到错误:“ x[j] 中的错误:无效的下标类型'list'” 但是,如果 c(“A”, “B”) 不是列表,它是什么?
0赞 Stéphane Laurent 11/29/2016
@Rafael_Espericueta 如果不查看代码,很难猜到...但它是一个向量,而不是一个列表。c("A", "B")
0赞 Suat Atan PhD 6/21/2017
它将数据框转换为列表。
0赞 moodymudskipper 12/2/2023
subset()也适用于裸变量名称:,此处的 A 和 B 将被视为数字索引,类似于 tidy selection 的作用。subset(dat, select = c(A, B))
249赞 Sam Firke 4/20/2015 #4

使用 dplyr 包,如果您的 data.frame 被调用:df1

library(dplyr)

df1 %>%
  select(A, B, E)

这也可以在没有管道的情况下写成:%>%

select(df1, A, B, E)

评论

5赞 Aren Cambre 8/16/2018
鉴于自发布我的问题以来 Tidyverse 发生了相当大的变化,我已经将答案切换到了你。
6赞 Joshua Ulrich 5/22/2019
鉴于整洁的变化速度非常快,我警告不要使用这种模式。此外,在为函数、包或应用程序编写代码时,我强烈倾向于将列名视为对象名称。
3赞 Aren Cambre 6/25/2019
自提交此答案以来已经四年多了,模式没有改变。管道表达式可能非常直观,这就是它们吸引人的原因。
1赞 Sam Firke 5/11/2020
您可以将管道链接在一起,例如:.通过键入df1 %>% select(A, B, E) %>% rowMeans(.)%>%?magrittr::`%>%`
3赞 moodymudskipper 8/17/2021
这是一个有用的解决方案,但对于问题中给出的示例,Josh 的答案更具可读性、速度更快且无依赖性。我希望新用户在潜入 tidyverse :)之前先学习方括号子集!
21赞 Richard Ball 6/10/2016 #5

其中 df1 是原始数据框:

df2 <- subset(df1, select = c(1, 2, 5))

评论

8赞 Gregor Thomas 10/13/2017
这不使用 .它使用 ,并且与 Stephane Laurent 的答案相同,只是您使用列号而不是列名。dplyrbase::subset
0赞 fxi 11/9/2016 #6

[和子集不可替换:

[如果只选择一列,则返回向量。

df = data.frame(a="a",b="b")    

identical(
  df[,c("a")], 
  subset(df,select="a")
) 

identical(
  df[,c("a","b")],  
  subset(df,select=c("a","b"))
)

评论

5赞 untill 9/19/2017
如果将 .例:drop=FALSEdf[,c("a"),drop=F]
15赞 Aman Burman 11/30/2016 #7

还可以使用对 R 数据帧执行选择的包,如下所示:sqldf

df1 <- sqldf("select A, B, E from df")

这将提供一个包含列的数据框作为输出:A、B 、E。df1

21赞 so860 10/13/2017 #8

仅出于某种原因

df[, (names(df) %in% c("A","B","E"))]

为我工作。上述所有语法都生成了“未定义的选定列”。

5赞 moodymudskipper 5/22/2019 #9

您可以使用:with

with(df, data.frame(A, B, E))
0赞 Mohamed Rahouma 10/16/2019 #10
df<- dplyr::select ( df,A,B,C)

此外,还可以为新创建的数据分配不同的名称

data<- dplyr::select ( df,A,B,C)

评论

0赞 camille 2/14/2022
这已经在公认的答案中了