子集 data.frame 中的 NA 会做一些意想不到的事情-解网

问：

请考虑以下代码。如果未在条件中显式测试，则该代码将在以后的某个日期失败，然后数据会更改。NA

>   # A toy example
>   a <- as.data.frame(cbind(col1=c(1,2,3,4),col2=c(2,NA,2,3),col3=c(1,2,3,4),col4=c(4,3,2,1)))
>   a
  col1 col2 col3 col4
1    1    2    1    4
2    2   NA    2    3
3    3    2    3    2
4    4    3    4    1
>   
>   # Bummer, there's an NA in my condition
>   a$col2==2
[1]  TRUE    NA  TRUE FALSE
> 
>   # Why is this a good thing to do?
>   # It NA'd the whole row, and kept it
>   a[a$col2==2,]
   col1 col2 col3 col4
1     1    2    1    4
NA   NA   NA   NA   NA
3     3    2    3    2
>   
>   # Yes, this is the right way to do it
>   a[!is.na(a$col2) & a$col2==2,]
  col1 col2 col3 col4
1    1    2    1    4
3    3    2    3    2
>     
>   # Subset seems designed to avoid this problem
>   subset(a, col2 == 2)
  col1 col2 col3 col4
1    1    2    1    4
3    3    2    3    2

有人可以解释为什么你没有支票的行为会是好的或有用的吗？is.na

r

在 R 中，检查数据中的 NA 值至关重要，因为许多重要的运算符不会按照预期的方式处理它。除了 == 之外，对于 &、|、<、sum（）等也是如此。当我编写 R 代码时，我一直在想“如果这里有 NA 会发生什么”。要求 R 用户小心缺失值是“设计使然”。

更新：当存在多个逻辑条件时，如何处理 NA？

NA是一个逻辑常量，如果您不考虑可能返回的内容，您可能会得到意外的子集（例如）。这些真值表可能提供了一个有用的说明：NA | TRUE == TRUE?Logic

outer(x, x, "&") ## AND table
#       <NA> FALSE  TRUE
#<NA>     NA FALSE    NA
#FALSE FALSE FALSE FALSE
#TRUE     NA FALSE  TRUE

outer(x, x, "|") ## OR  table
#      <NA> FALSE TRUE
#<NA>    NA    NA TRUE
#FALSE   NA FALSE TRUE
#TRUE  TRUE  TRUE TRUE

子集 data.frame 中的 NA 会做一些意想不到的事情

An NA in subsetting a data.frame does something unexpected

评论

更新：当存在多个逻辑条件时，如何处理 NA？

评论