如何在 dplyr 链中筛选时保留基本数据帧行名-解网

问：

我有以下数据框：

df <- structure(list(BoneMarrow = c(30, 0, 0, 31138, 2703), Pulmonary = c(3380, 
21223.3333333333, 0, 0, 27)), row.names = c("ATP1B1", "CYCS", 
"DDX5", "GNB2L1", "PRR11"), class = "data.frame", .Names = c("BoneMarrow", 
"Pulmonary"))

df 
#>        BoneMarrow Pulmonary
#> ATP1B1         30   3380.00
#> CYCS            0  21223.33
#> DDX5            0      0.00
#> GNB2L1      31138      0.00
#> PRR11        2703     27.00

我想做的是删除任何列中值为 < 8 的行。我试过这个，但是行名（例如ATP1B1，CYCS等）不见了：

> df %>% filter(!apply(., 1, function(row) any(row <= 8 )))
  BoneMarrow Pulmonary
1         30      3380
2       2703        27

我怎样才能在 dplyr 链中保留它？

r dplyr

评论

0赞 Julien 12/5/2023

较新版本的 dplyr 保留了行的名称，因此这不再是问题

答：

62赞 mt1022 8/1/2017 #1

您可以将行名转换为列，并在过滤后恢复：

library(dplyr)
library(tibble)  # for `rownames_to_column` and `column_to_rownames`

df %>%
    rownames_to_column('gene') %>%
    filter_if(is.numeric, all_vars(. >= 8)) %>%
    column_to_rownames('gene')

#        BoneMarrow Pulmonary
# ATP1B1         30      3380
# PRR11        2703        27

评论

6赞 Tapper 5/3/2020

这个答案效果很好 - 但我一直想知道为什么 dplyr 首先要删除行名？

4赞 BENY 8/1/2017 #2

使用基本 R 布尔值尝试一下怎么样

df[rowSums(df>8)==dim(df)[2],] 

       BoneMarrow Pulmonary
ATP1B1         30      3380
PRR11        2703        27

编辑1：或者你可以做（按照@user20650）会给你相同的结果。df[!rowSums(df<8),]

评论

1赞 user20650 8/1/2017

漂亮而简洁的答案。也会这样做df[!rowSums(df<8),]

0赞 BENY 8/1/2017

@user20650你的答案更好~

1赞 James Hirschorn 2/6/2020

@YOBEN_S但是您的解决方案看起来像 base ，而不是（但您写了“dplyr 绝对可以解决这个问题......”，所以我很好奇）。Rdplyr

4赞 akrun 8/1/2017 #3

这是另一种方法base RReduce

df[Reduce(`&`, lapply(df, `>=`, 8)),]
#       BoneMarrow Pulmonary
#ATP1B1         30      3380
#PRR11        2703        27

2赞 Alexis Lucattini 5/8/2018 #4

对于基因计数，您通常想知道是否至少有 x 个样本的计数大于 y 个样本，而不仅仅是所有样本的计数。

不像filter_if漂亮，但我不确定如何使用all_vars实现相同的 rowSums 条件

   x <- sample_threshold  
   y <- count_threshold

   require(dplyr) 
   require(tibble)

   df %>%  
       tibble::rownames_to_column('gene') %>%  
       dplyr::filter(rowSums(dplyr::select(., -gene) > y) > x) %>%  
       tibble::column_to_rownames('gene')

1赞 LMc 3/8/2023 #5

从 1.0.4 开始，这不是问题，他们引入了 if_any/if_all 以使此任务变得更加容易：dplyr

library(dplyr)

df %>% 
  filter(if_all(everything(), ~ . >= 8))

输出

       BoneMarrow Pulmonary
ATP1B1         30      3380
PRR11        2703        27

上一个：如何按字符串索引的自定义顺序对 pandas 数据帧进行排序

下一个：如何在 dplyr 中命名group_split输出列表