在 R 中进行自然语言处理时保留某些停用词

keeping certain stopwords when natural language processing in R

提问人:wisamb 提问时间:5/20/2023 更新时间:5/20/2023 访问量:15

问:

我正在使用下面的代码在 R 中进行自然语言处理。我注意到删除停用词的行,删除了“不”这个词。我可以让它保留这个词吗?有没有办法查看它删除的所有单词?

# Pre-processing chain
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
cleanset <- tm_map(corpus, removeWords, stopwords('english')) # do not remove the word 'no'
cleanset <- tm_map(cleanset, stemDocument)
cleanset <- tm_map(cleanset, stripWhitespace)
inspect(cleanset[1:25])
R NLP 停用词

评论


答:

1赞 Marcus 5/20/2023 #1

stopwords只需返回一个字符向量。只需从传递给的此向量中删除“no”removeWords

tm_map(corpus, removeWords, setdiff(stopwords('english'), "no"))