将 str_detect（）与 dplyr：：mutate 一起使用-解网

问：

我正在尝试使用 dplyr：：mutate（）在数据帧中创建一个新列。对于从中获取数据的列，有两种情况：

原始列（“cabin”）包含字母和数字的一种组合，例如“E4”。在这种情况下，新列应为“E”。
原始列包含两个以上的字母和数字组合，例如“F G73”或“B57 B59 B63 B66”。在这种情况下，新列应分别为“F、G”或“B”。

数据示例：

structure(list(pclass = c(1L, 1L, 1L, 3L, 3L), survived = c(0L, 
1L, 1L, 0L, 0L), name = c("Allison, Miss. Helen Loraine", "Anderson, Mr. Harry", 
"Andrews, Miss. Kornelia Theodosia", "Moen, Mr. Sigurd Hansen", 
"Soholt, Mr. Peter Andreas Lauritz Andersen"), sex = c("female", 
"male", "female", "male", "male"), age = c(2, 48, 63, 25, 19), 
    sibsp = c(1L, 0L, 1L, 0L, 0L), parch = c(2L, 0L, 0L, 0L, 
    0L), ticket = c("113781", "19952", "13502", "348123", "348124"
    ), fare = c(151.55, 26.55, 77.9583, 7.65, 7.65), cabin = c("C22 C26", 
    "E12", "D7", "F G73", "F G73"), embarked = c("S", "S", "S", 
    "S", "S"), boat = c("", "3", "10", "", ""), body = c(NA, 
    NA, NA, 309L, NA), home.dest = c("Montreal, PQ / Chesterville, ON", 
    "New York, NY", "Hudson, NY", "", ""), title = c("Miss.", 
    "Mr.", "Miss.", "Mr.", "Mr.")), row.names = c("3", "6", "7", 
"1025", "1218"), class = "data.frame")

这是我使用的代码：

titanic_data <- titanic_data %>%
  mutate(cabin_zone = ifelse(str_detect(cabin," "),
                             cabin %>%
                               str_extract("[A-Z]") %>%
                               str_split(.," ") %>%
                               unlist(.) %>%
                               unique(.) %>%
                               paste(.,collapse = ","),
                             gsub("[0-9 ]", "", cabin)))

第二种情况的结果很好，但对于第一种情况，我总是得到这个字符串作为结果：'B，C，E，D，A，NA，T，F，G'。

我无法弄清楚为什么操作没有按我想要的方式工作！任何帮助都值得赞赏！

R 正则表达式 dplyr

library(tidyverse)

titanic_data %>%
  as_tibble() |> 
  mutate(cabin_zone = str_extract_all(cabin, "[A-Z]") |> 
           lapply(unique) |> 
           vapply(paste, character(1), collapse = ", ")) |> 
  select(name, cabin, cabin_zone)
#> # A tibble: 5 × 3
#>   name                                       cabin   cabin_zone
#>   <chr>                                      <chr>   <chr>     
#> 1 Allison, Miss. Helen Loraine               C22 C26 C         
#> 2 Anderson, Mr. Harry                        E12     E         
#> 3 Andrews, Miss. Kornelia Theodosia          D7      D         
#> 4 Moen, Mr. Sigurd Hansen                    F G73   F, G      
#> 5 Soholt, Mr. Peter Andreas Lauritz Andersen F G73   F, G

# Selected some columns for simplicity

函数和使和函数在每一行中单独工作（通过遍历匹配项列表）。如果您更喜欢 tidyverse 函数，您可以使用以下命令编写以下步骤以返回字符列：lapplyvapplyuniquepastemap

titanic_data %>%
  as_tibble() |> 
  mutate(cabin_zone = str_extract_all(cabin, "[A-Z]") |> 
           map_chr(compose(\(x) paste(x, collapse = ", "), unique))) |> 
  select(name, cabin, cabin_zone)
#> # A tibble: 5 × 3
#>   name                                       cabin   cabin_zone
#>   <chr>                                      <chr>   <chr>     
#> 1 Allison, Miss. Helen Loraine               C22 C26 C         
#> 2 Anderson, Mr. Harry                        E12     E         
#> 3 Andrews, Miss. Kornelia Theodosia          D7      D         
#> 4 Moen, Mr. Sigurd Hansen                    F G73   F, G      
#> 5 Soholt, Mr. Peter Andreas Lauritz Andersen F G73   F, G

或者，您可以使用隔离处理每一行，并从那里折叠它们：rowwise()

titanic_data |>
  as_tibble() |> 
  rowwise() |> 
  mutate(cabin_zone = str_extract_all(cabin, "[A-Z]") |> 
           unlist() |> 
           unique() |> 
           paste(collapse = ", ")) |> 
  select(name, cabin, cabin_zone)
#> # A tibble: 5 × 3
#> # Rowwise: 
#>   name                                       cabin   cabin_zone
#>   <chr>                                      <chr>   <chr>     
#> 1 Allison, Miss. Helen Loraine               C22 C26 C         
#> 2 Anderson, Mr. Harry                        E12     E         
#> 3 Andrews, Miss. Kornelia Theodosia          D7      D         
#> 4 Moen, Mr. Sigurd Hansen                    F G73   F, G      
#> 5 Soholt, Mr. Peter Andreas Lauritz Andersen F G73   F, G

将 str_detect（）与 dplyr：：mutate 一起使用

Using str_detect() rowwise with dplyr::mutate

评论

评论

将 str_detect（） 与 dplyr：：mutate 一起使用

Using str_detect() rowwise with dplyr::mutate

评论

评论

将 str_detect（）与 dplyr：：mutate 一起使用