问：

我有以下形式的数据。有超过一百万行。我只想创建另一列来帮助我识别分组的 Item3 的行。前两列无关紧要。刚刚添加，让我知道我在数据集中还有其他列。我使用了 cumsum 和 group_indices但没有用。

项目1	项目2	项目3
一	二	一个
一	二	一个
一	二	一个
一	二	B
一	二	B
一	二	C

项目1	项目2	项目3	标识符
一	二	一个	1
一	二	一个	2
一	二	一个	3
一	二	B	1
一	二	B	2
一	二	C	1

R Group-BY 标识符突变

library(tidyverse)

data <- tibble(
  Item1 = c("One", "One", "One", "One", "One", "One"),
  Item2 = c("Two", "Two", "Two", "Two", "Two", "Two"),
  Item3 = c("A", "A", "A", "B", "B", "C")
)

data %>% 
  mutate(ID = row_number(), .by = Item3))

  Item1 Item2 Item3     ID
  <chr> <chr> <chr> <int>
1 One   Two   A         1
2 One   Two   A         2
3 One   Two   A         3
4 One   Two   B         1
5 One   Two   B         2
6 One   Two   C         1

感谢 Chamkrai 的想法 😃.by = Item3

基本解决方案

ave(integer(nrow(data)), data$Item3, FUN = seq_along)

data.table 解决方案

library(data.table)
setDT(data)[, ID := rowidv(Item3)]

数据

structure(list(Item1 = c("One", "One", "One", "One", "One", "One"
), Item2 = c("Two", "Two", "Two", "Two", "Two", "Two"), Item3 = c("A", 
"A", "A", "B", "B", "C")), class = c("tbl_df", "tbl", "data.frame"
), row.names = c(NA, -6L))

上一个：合并具有相同基本名称但不同特定 ID 集的文件

下一个：Scala： '（' 预期，但找到标识符 [已关闭]

在组中创建行标识符

Creating row identifier within a group

评论

评论

基本解决方案

data.table 解决方案

数据