为什么 forstringr：：str_split_extract 不像其他字符那样在句点（.）上拆分？

Why doesn't forstringr::str_split_extract split on a period (.) like it will with other characters?

提问人：Lachlan Macnish 提问时间：10/9/2023 最后编辑：Lachlan Macnish 更新时间：10/13/2023 访问量：36

问：

为什么 forstringr：：str_split_extract 不像其他字符那样在句号字符上拆分？

根据 str_split_extract 手册中的示例，以下代码运行良好：

code <- c("HS-IB-EDE", "OG-OYO-CAS-0121", "NY-ILR-NIG-036")

str_split_extract(code, "-", 1)

str_split_extract(code, "-", 4)

这将返回结果：

> str_split_extract(code, "-", 1)
[1] "HS" "OG" "NY"
> str_split_extract(code, "-", 4)
[1] NA     "0121" "036"

但是，如果我修改它以将“-”替换为“.”，它只会返回所有值的 NA：

code <- c("HS.IB.EDE", "OG.OYO.CAS.0121", "NY.ILR.NIG.036")

str_split_extract(code, ".", 1)

str_split_extract(code, ".", 4)

这给出了结果：

> str_split_extract(code, ".", 1)
[1] NA NA NA
> str_split_extract(code, ".", 4)
[1] NA NA NA

为什么？

R 字符串拆分

答：

0赞 Lachlan Macnish 10/9/2023 #1

我发现 stringr 存在类似的问题：

事实证明，默认情况下模式字符串是正则表达式，“.”是有效的正则表达式，因此它工作正常，但只是没有达到我的预期。因此，必须将其转换为适当的正则表达式才能使用正则表达式搜索（.）：

code <- c("HS.IB.EDE", "OG.OYO.CAS.0121", "NY.ILR.NIG.036")

str_split_extract(code, "\\.", 1)

str_split_extract(code, "\\.", 4)

...返回。。。

> str_split_extract(code, "\\.", 1)
[1] "HS" "OG" "NY"
> str_split_extract(code, "\\.", 4)
[1] NA     "0121" "036"

0赞 Konrad Rudolph 10/9/2023

“正则表达式模式是有效的”有点误导：它们无效，它们是默认的。因此，您传递给的每个字符串都被视为正则表达式。要禁用此功能，您需要传递字符串以外的其他内容，例如.patternstr_split_extract()fixed('.')

0赞 Lachlan Macnish 10/9/2023

谢谢@KonradRudolph，但你有参考吗？我只是根据手册页中的措辞来表达这一点，但你很可能是对的。search.r-project.org/CRAN/refmans/forstringr/html/......

1赞 SamR 10/9/2023

@LokMac这似乎是一个相当小众的软件包，没有像它所依赖的那样全面记录。但是，有问题的函数在文档说默认值是正则表达式的情况下使用。stringrstringr::str_split()