主题模型 LDA:删除特殊字符时出现的问题

Topic Model LDA: Problem with removing of special character

提问人:Frieda 提问时间:5/16/2023 最后编辑:AdriaanFrieda 更新时间:5/25/2023 访问量:61

问:

我想从我的简单语料库中删除特殊字符。不幸的是,它在我的情况下不起作用。我尝试了 .此外,我尝试从我的 R 对象复制破折号。我使用XML数据,并在一个简单的语料库中对其进行更改。为此,我使用了.gsubtm_map

如果我使用

text <- c("Today is the weather nice — I want to go to the beach —")
text_new <- gsub("—", "", text)

输出为

Today is the weather nice — I want to go to the beach —

而我希望我的输出是

Today is the weather nice I want to got to the beach

如果我将文本定义为向量,那么它就可以工作。但是作为语料库,R 无法识别符号。如何检测长破折号?

R LDA 主题建模 停用词

评论


答:

0赞 LeaK 5/17/2023 #1

很可能是您正在使用您的函数搜索 a,而 PDF 中的文本包含长破折号或任何其他类型的破折号,但看起来相似。您是否尝试过打开带有文本的 R 对象并将要从那里删除的内容复制粘贴到您的函数中?-gsub()-gsub()

评论

0赞 Frieda 5/17/2023
谢谢你的欢迎词。我希望我编辑的问题更好。我试图实现你的建议,但 R 不认为破折号是长破折号。