提问人:mike 提问时间:4/13/2012 最后编辑:Amal Kmike 更新时间:9/19/2022 访问量:789335
测试字符串中是否包含字符
Test if characters are in a string
问:
我正在尝试确定一个字符串是否是另一个字符串的子集。例如:
chars <- "test"
value <- "es"
如果“”显示为字符串“”的一部分,我想返回。在以下情况下,我想返回 false:TRUE
value
chars
chars <- "test"
value <- "et"
答:
你想要:grepl
> chars <- "test"
> value <- "es"
> grepl(value, chars)
[1] TRUE
> chars <- "test"
> value <- "et"
> grepl(value, chars)
[1] FALSE
使用函数grepl
grepl( needle, haystack, fixed = TRUE)
这样:
grepl(value, chars, fixed = TRUE)
# TRUE
用于了解更多信息。?grepl
评论
vec <- replicate(100000, paste( sample(letters, 10, replace=TRUE), collapse='') )
system.time(a <- grepl("abc", vec))
system.time(a <- grepl("abc", vec, fixed=TRUE))
fixed=TRUE
fixed=TRUE
fixed=TRUE
你可以使用grep
grep("es", "Test")
[1] 1
grep("et", "Test")
integer(0)
使用包中的此函数:stringi
> stri_detect_fixed("test",c("et","es"))
[1] FALSE TRUE
一些基准:
library(stringi)
set.seed(123L)
value <- stri_rand_strings(10000, ceiling(runif(10000, 1, 100))) # 10000 random ASCII strings
head(value)
chars <- "es"
library(microbenchmark)
microbenchmark(
grepl(chars, value),
grepl(chars, value, fixed=TRUE),
grepl(chars, value, perl=TRUE),
stri_detect_fixed(value, chars),
stri_detect_regex(value, chars)
)
## Unit: milliseconds
## expr min lq median uq max neval
## grepl(chars, value) 13.682876 13.943184 14.057991 14.295423 15.443530 100
## grepl(chars, value, fixed = TRUE) 5.071617 5.110779 5.281498 5.523421 45.243791 100
## grepl(chars, value, perl = TRUE) 1.835558 1.873280 1.956974 2.259203 3.506741 100
## stri_detect_fixed(value, chars) 1.191403 1.233287 1.309720 1.510677 2.821284 100
## stri_detect_regex(value, chars) 6.043537 6.154198 6.273506 6.447714 7.884380 100
以防万一您还想检查一个字符串(或一组字符串)是否包含多个子字符串,您还可以在两个子字符串之间使用“|”。
>substring="as|at"
>string_vector=c("ass","ear","eye","heat")
>grepl(substring,string_vector)
你会得到
[1] TRUE FALSE FALSE TRUE
因为第一个单词包含子字符串“as”,最后一个单词包含子字符串“at”
评论
使用 or 但请注意是否要使用正则表达式。grep
grepl
默认情况下,和 related 采用正则表达式进行匹配,而不是文字子字符串。如果您不希望出现这种情况,并且尝试在无效的正则表达式上进行匹配,则它不起作用:grep
> grep("[", "abc[")
Error in grep("[", "abc[") :
invalid regular expression '[', reason 'Missing ']''
要执行真正的子字符串测试,请使用 .fixed = TRUE
> grep("[", "abc[", fixed = TRUE)
[1] 1
如果你确实想要正则表达式,那很好,但这不是 OP 所要求的。
答
唉,我花了 45 分钟才找到这个简单问题的答案。答案是:grepl(needle, haystack, fixed=TRUE)
# Correct
> grepl("1+2", "1+2", fixed=TRUE)
[1] TRUE
> grepl("1+2", "123+456", fixed=TRUE)
[1] FALSE
# Incorrect
> grepl("1+2", "1+2")
[1] FALSE
> grepl("1+2", "123+456")
[1] TRUE
解释
grep
以 linux 可执行文件命名,它本身就是“Global Regular Expression Print”的首字母缩写,它会读取输入行,然后打印它们,如果它们与您给出的参数匹配。“全局”意味着匹配可以发生在输入行上的任何位置,我将在下面解释“正则表达式”,但这个想法是匹配字符串的更智能的方法(R 称之为“字符”,例如 ),和“打印”因为它是一个命令行程序,发出输出意味着它打印到其输出字符串。class("abc")
现在,该程序基本上是一个过滤器,从输入行到输出行。似乎 R 的函数同样会接受一个输入数组。出于我完全不知道的原因(我大约一个小时前才开始玩 R),它返回匹配索引的向量,而不是匹配列表。grep
grep
但是,回到你最初的问题,我们真正想知道我们是否大海捞针,一个真/假值。他们显然决定将这个函数命名为 “grep”,但返回值为“Logical”(他们调用 true 和 false 逻辑值,例如 )。grepl
class(TRUE)
所以,现在我们知道这个名字从何而来以及它应该做什么。让我们回到正则表达式。这些参数,即使它们是字符串,它们也用于构建正则表达式(以下称为正则表达式)。正则表达式是一种匹配字符串的方法(如果这个定义激怒了你,那就放手吧)。例如,正则表达式与字符匹配 ,正则表达式与字符匹配 0 次或更多次,正则表达式将与字符匹配 1 次或多次。因此,在上面的例子中,我们正在搜索的针,当被视为正则表达式时,意味着“一个或多个 1 后跟 2”......但是我们的紧随其后的是加号!a
"a"
a*
"a"
a+
"a"
1+2
所以,如果你使用没有设置,你的针会意外地成为大海捞针,而且会经常意外地工作,我们可以看到它甚至适用于 OP 的示例。但这是一个潜在的错误!我们需要告诉它输入是一个字符串,而不是正则表达式,这显然是它的用途。为什么要修复?没有线索,把这个答案加入书签,你可能要再查 5 次才能记住它。grepl
fixed
fixed
最后的几点想法
你的代码越好,你就越少需要知道的历史来理解它。每个参数至少可以有两个有趣的值(否则它不需要是一个参数),文档在这里列出了 9 个参数,这意味着至少有 2^9=512 种方法可以调用它,这需要大量的工作来编写、测试和记住......解耦这些函数(将它们拆分,删除彼此的依赖关系,字符串与正则表达式不同,与向量不同)。有些选项也是相互排斥的,不要给用户不正确的代码使用方式,即有问题的调用应该在结构上是无意义的(例如传递一个不存在的选项),而不是逻辑上的无意义(你必须发出警告来解释它)。打个比方:用一堵墙代替 10 楼一侧的前门比挂一个警告不要使用它的标志要好,但两者都比不好。在接口中,函数定义参数应该是什么样子,而不是调用者(因为调用者依赖于函数,推断每个人可能想要调用它的所有内容都会使函数也依赖于调用者,这种类型的周期性依赖关系将很快阻塞系统,并且永远不会提供您期望的好处)。要非常警惕模棱两可的类型,像 和 和 都是向量的东西是一个设计缺陷。TRUE
0
"abc"
评论
grep
此外,可以使用“stringr”库来完成:
> library(stringr)
> chars <- "test"
> value <- "es"
> str_detect(chars, value)
[1] TRUE
### For multiple value case:
> value <- c("es", "l", "est", "a", "test")
> str_detect(chars, value)
[1] TRUE FALSE TRUE FALSE TRUE
评论
类似的问题在这里:给定一个字符串和一个关键字列表,检测字符串中包含哪些关键字(如果有)。
此线程的建议建议 's 和 .以下是该软件包中的基准测试:stringr
str_detect
grepl
microbenchmark
用
map_keywords = c("once", "twice", "few")
t = "yes but only a few times"
mapper1 <- function (x) {
r = str_detect(x, map_keywords)
}
mapper2 <- function (x) {
r = sapply(map_keywords, function (k) grepl(k, x, fixed = T))
}
然后
microbenchmark(mapper1(t), mapper2(t), times = 5000)
我们发现
Unit: microseconds
expr min lq mean median uq max neval
mapper1(t) 26.401 27.988 31.32951 28.8430 29.5225 2091.476 5000
mapper2(t) 19.289 20.767 24.94484 23.7725 24.6220 1011.837 5000
如您所见,使用和处理实际的关键字字符串和向量进行超过 5,000 次关键字搜索迭代,其性能比 .str_detect
grepl
grepl
str_detect
结果是布尔向量,用于标识字符串中包含哪些关键字(如果有)。r
因此,我建议使用 grepl
来确定字符串中是否有任何关键字。
上一个:将数据框列表逐行合并为一个数据帧
下一个:如何测量字符串之间的相似性?
评论
fixed=TRUE
fixed=TRUE