提问人:Frieda 提问时间:5/16/2023 最后编辑:AdriaanFrieda 更新时间:5/25/2023 访问量:61
主题模型 LDA:删除特殊字符时出现的问题
Topic Model LDA: Problem with removing of special character
问:
我想从我的简单语料库中删除特殊字符。不幸的是,它在我的情况下不起作用。我尝试了 .此外,我尝试从我的 R 对象复制破折号。我使用XML数据,并在一个简单的语料库中对其进行更改。为此,我使用了.—
gsub
—
tm_map
如果我使用
text <- c("Today is the weather nice — I want to go to the beach —")
text_new <- gsub("—", "", text)
输出为
Today is the weather nice — I want to go to the beach —
而我希望我的输出是
Today is the weather nice I want to got to the beach
如果我将文本定义为向量,那么它就可以工作。但是作为语料库,R 无法识别符号。如何检测长破折号?—
答:
0赞
LeaK
5/17/2023
#1
很可能是您正在使用您的函数搜索 a,而 PDF 中的文本包含长破折号或任何其他类型的破折号,但看起来相似。您是否尝试过打开带有文本的 R 对象并将要从那里删除的内容复制粘贴到您的函数中?-
gsub()
-
gsub()
评论
0赞
Frieda
5/17/2023
谢谢你的欢迎词。我希望我编辑的问题更好。我试图实现你的建议,但 R 不认为破折号是长破折号。
下一个:从文本文件中删除停用词/连接词
评论