提问人:Samuel Song 提问时间:8/14/2013 最后编辑:Gregor ThomasSamuel Song 更新时间:2/8/2023 访问量:181753
使用 $ 和字符值动态选择数据框列
Dynamically select data frame columns using $ and a character value
问:
我有一个不同列名的向量,我希望能够遍历每个列名以从 data.frame 中提取该列。例如,考虑存储在字符向量中的数据集和一些变量名称。当我尝试使用动态子集选择变量时,这些工作mtcars
cols
mtcars
cols
cols <- c("mpg", "cyl", "am")
col <- cols[1]
col
# [1] "mpg"
mtcars$col
# NULL
mtcars$cols[1]
# NULL
我怎样才能让它们返回与
mtcars$mpg
此外,我如何遍历所有列以在某种循环中获取值。cols
for(x in seq_along(cols)) {
value <- mtcars[ order(mtcars$cols[x]), ]
}
答:
如果我理解正确的话,您有一个包含变量名称的向量,并希望遍历每个名称并按它们对数据帧进行排序。如果是这样,此示例应为您说明解决方案。您的主要问题(完整示例不完整,因此我不确定您可能还遗漏了什么)应该是而不是,因为参数是一个外部对象,其中包含与数据框的直接列相反的变量名称(当合适时)。order(Q1_R1000[,parameter[X]])
order(Q1_R1000$parameter[X])
$
set.seed(1)
dat <- data.frame(var1=round(rnorm(10)),
var2=round(rnorm(10)),
var3=round(rnorm(10)))
param <- paste0("var",1:3)
dat
# var1 var2 var3
#1 -1 2 1
#2 0 0 1
#3 -1 -1 0
#4 2 -2 -2
#5 0 1 1
#6 -1 0 0
#7 0 0 0
#8 1 1 -1
#9 1 1 0
#10 0 1 0
for(p in rev(param)){
dat <- dat[order(dat[,p]),]
}
dat
# var1 var2 var3
#3 -1 -1 0
#6 -1 0 0
#1 -1 2 1
#7 0 0 0
#2 0 0 1
#10 0 1 0
#5 0 1 1
#8 1 1 -1
#9 1 1 0
#4 2 -2 -2
你不能用 来做这种子集。在源代码 () 中,它指出:$
R/src/main/subset.c
/*$ 子集运算符。
我们需要确保只评估第一个参数。
第二个是需要匹配的符号,而不是评估的符号。
*/
第二个论点?什么?!你必须意识到,就像 R 中的其他一切一样,(包括例如、、等)是一个函数,它接受参数并被计算。 可以改写为$
(
+
^
df$V1
`$`(df , V1)
或者确实如此
`$`(df , "V1")
但。。。
`$`(df , paste0("V1") )
...例如,永远不会起作用,在第二个参数中必须首先计算的任何其他东西也不会起作用。您只能传递一个从不计算的字符串。
请改用(或者,如果您只想提取单列作为向量)。[
[[
例如
var <- "mpg"
#Doesn't work
mtcars$var
#These both work, but note that what they return is different
# the first is a vector, the second is a data.frame
mtcars[[var]]
mtcars[var]
您可以在没有循环的情况下执行排序,用于构造对 的调用。下面是一个可重现的例子:do.call
order
# set seed for reproducibility
set.seed(123)
df <- data.frame( col1 = sample(5,10,repl=T) , col2 = sample(5,10,repl=T) , col3 = sample(5,10,repl=T) )
# We want to sort by 'col3' then by 'col1'
sort_list <- c("col3","col1")
# Use 'do.call' to call order. Seccond argument in do.call is a list of arguments
# to pass to the first argument, in this case 'order'.
# Since a data.frame is really a list, we just subset the data.frame
# according to the columns we want to sort in, in that order
df[ do.call( order , df[ , match( sort_list , names(df) ) ] ) , ]
col1 col2 col3
10 3 5 1
9 3 2 2
7 3 2 3
8 5 1 3
6 1 5 4
3 3 4 4
2 4 3 4
5 5 1 4
1 2 5 5
4 5 3 5
评论
mtcars[do.call(order, mtcars[cols]), ]
使用 dplyr 提供了一种用于对数据帧进行排序的简单语法
library(dplyr)
mtcars %>% arrange(gear, desc(mpg))
使用此处所示的 NSE 版本来允许动态构建排序列表可能很有用
sort_list <- c("gear", "desc(mpg)")
mtcars %>% arrange_(.dots = sort_list)
评论
由于某些CSV文件对同一列具有不同的名称,因此存在类似的问题。
这是解决方案:
我编写了一个函数来返回列表中的第一个有效列名,然后使用它......
# Return the string name of the first name in names that is a column name in tbl
# else null
ChooseCorrectColumnName <- function(tbl, names) {
for(n in names) {
if (n %in% colnames(tbl)) {
return(n)
}
}
return(null)
}
then...
cptcodefieldname = ChooseCorrectColumnName(file, c("CPT", "CPT.Code"))
icdcodefieldname = ChooseCorrectColumnName(file, c("ICD.10.CM.Code", "ICD10.Code"))
if (is.null(cptcodefieldname) || is.null(icdcodefieldname)) {
print("Bad file column name")
}
# Here we use the hash table implementation where
# we have a string key and list value so we need actual strings,
# not Factors
file[cptcodefieldname] = as.character(file[cptcodefieldname])
file[icdcodefieldname] = as.character(file[icdcodefieldname])
for (i in 1:length(file[cptcodefieldname])) {
cpt_valid_icds[file[cptcodefieldname][i]] <<- unique(c(cpt_valid_icds[[file[cptcodefieldname][i]]], file[icdcodefieldname][i]))
}
如果要选择具有特定名称的列,则只需执行
A <- mtcars[,which(conames(mtcars)==cols[1])]
# and then
colnames(mtcars)[A]=cols[1]
您也可以在循环中运行它 添加动态名称的反向方法,例如,如果 A 是数据帧,xyz 是要命名为 x 的列,那么我就是这样做的
A$tmp <- xyz
colnames(A)[colnames(A)=="tmp"]=x
同样,这也可以在循环中添加
评论
另一种解决方案是使用 #get:
> cols <- c("cyl", "am")
> get(cols[1], mtcars)
[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
太迟了。。但我想我有答案——
这是我的示例 study.df 数据帧 -
>study.df
study sample collection_dt other_column
1 DS-111 ES768098 2019-01-21:04:00:30 <NA>
2 DS-111 ES768099 2018-12-20:08:00:30 some_value
3 DS-111 ES768100 <NA> some_value
然后-
> ## Selecting Columns in an Given order
> ## Create ColNames vector as per your Preference
>
> selectCols <- c('study','collection_dt','sample')
>
> ## Select data from Study.df with help of selection vector
> selectCols %>% select(.data=study.df,.)
study collection_dt sample
1 DS-111 2019-01-21:04:00:30 ES768098
2 DS-111 2018-12-20:08:00:30 ES768099
3 DS-111 <NA> ES768100
>
发生在我身上好几次。使用 data.table 包。当您只有 1 列需要参考时。使用任一
DT[[x]]
或
DT[,..x]
当您有 2 个或更多列要引用时,请确保使用:
DT[,..x]
该 x 可以是另一个 data.frame 中的字符串。
评论
data.table
DT[[x]]
DT[, ..x]
x
DT[[x]]
DT[x, ]
我会实现包的功能。假设 的值为 。这个想法是将其子集化。sym
rlang
col
"mpg"
mtcars %>% pull(!!sym(col))
# [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.2 10.4 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.4 15.8 19.7 15.0
# [32] 21.4
继续编码!
评论
sym
来自 ,而不是 。最好解释一下为什么这是您的建议rlang
purrr
评论