提问人:wisamb 提问时间:5/20/2023 更新时间:5/20/2023 访问量:15
在 R 中进行自然语言处理时保留某些停用词
keeping certain stopwords when natural language processing in R
问:
我正在使用下面的代码在 R 中进行自然语言处理。我注意到删除停用词的行,删除了“不”这个词。我可以让它保留这个词吗?有没有办法查看它删除的所有单词?
# Pre-processing chain
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
cleanset <- tm_map(corpus, removeWords, stopwords('english')) # do not remove the word 'no'
cleanset <- tm_map(cleanset, stemDocument)
cleanset <- tm_map(cleanset, stripWhitespace)
inspect(cleanset[1:25])
答:
1赞
Marcus
5/20/2023
#1
stopwords
只需返回一个字符向量。只需从传递给的此向量中删除“no”removeWords
tm_map(corpus, removeWords, setdiff(stopwords('english'), "no"))
评论