nlp知识经验-第5页-解网

作者：John Sall 提问时间：5/18/2019

我正在做方言的文本分类。我正在使用带有 countVectorizer 的朴素贝叶斯分类器。我有很多错误分类的文本。有没有一种方法可以分析这些错误，以找出分类出错的地方？例如，如果我能知道哪些单词被用...

作者：h s 提问时间：5/13/2020

我有一个 python 字符串，其中包含 HTML 代码，来自我想使用 lxml 库解析的 JSON。该字符串具有多个转义字符和其他特殊字符。如何清理此代码，以便我可以使用 lxml 从中提取信息？我...

作者：DanielTheRocketMan 提问时间：7/4/2020

由于我正在使用许多不同的字体，并且对每个符号都有特殊的处理，因此我想标准化文本字体中的所有引号和撇号条目。我正在寻找与此条目类似的东西来跳过行 content=re.sub(r'\u000D\u...

作者：thefrollickingnerd 提问时间：10/23/2020

我正在尝试在没有 nltk.download（'wordnet'）的情况下使用 wordnet，因为该功能被公司的 IT 策略阻止。我已经下载了wordnet文件并将其解压缩到我的本地目录中并使用了...

作者：swygerts 提问时间：1/6/2023

我开发了一个管道来从文档中提取文本，对文本进行预处理，并在给定文档上训练gensim Doc2vec模型。鉴于我的语料库中有一份文档，我想推荐语料库中的其他文档。我想知道如何在没有预定义的“好”建...

作者：Python_Hey 提问时间：2/15/2023

我正在尝试使用 contains（）函数在连接表时对两列进行匹配。我有两个问题问题 1 数据如下所示： col1： '[“红色”，“蓝色”，“绿色”，“是”，“紫色”，“汽车”，“黄色”]...

作者：Tavlin 提问时间：2/8/2023

如果这里有人知道一个 python 库，该库只能从整个消息中提取土耳其的地址（文本最初是土耳其语），那将是一个很大的帮助。一个翻译的例子是： “嗨，我叫塞勒姆，我有关于坠机现场的信息 ........

作者：Donya 提问时间：3/13/2023

我正在尝试从以下位置导入：legacy_roundtextstat from textstat.textstat import textstatistics,legacy_round 但是我收到以...

作者：d4rkneo 提问时间：4/27/2023

尊敬的 stack overflow 社区：尝试在 R 中使用 tm 包（https://cran.r-project.org/web/packages/tm/tm.pdf）中的函数 stem...

作者：wisamb 提问时间：5/20/2023

我正在使用下面的代码在 R 中进行自然语言处理。我注意到删除停用词的行，删除了“不”这个词。我可以让它保留这个词吗？有没有办法查看它删除的所有单词？ # Pre-processing chain c...