nlp 问答列表

如何通过错误分析获得文本分类的见解?

作者:John Sall 提问时间:5/18/2019

我正在做方言的文本分类。我正在使用带有 countVectorizer 的朴素贝叶斯分类器。我有很多错误分类的文本。有没有一种方法可以分析这些错误,以找出分类出错的地方?例如,如果我能知道哪些单词被用...

如何使用 lxml 清理 HTML 字符串以在 python 中解析它?

作者:h s 提问时间:5/13/2020

我有一个 python 字符串,其中包含 HTML 代码,来自我想使用 lxml 库解析的 JSON。该字符串具有多个转义字符和其他特殊字符。如何清理此代码,以便我可以使用 lxml 从中提取信息?我...

在 python 中保持双引号、单引号和撇号

作者:DanielTheRocketMan 提问时间:7/4/2020

由于我正在使用许多不同的字体,并且对每个符号都有特殊的处理,因此我想标准化文本字体中的所有引号和撇号条目。 我正在寻找与此条目类似的东西来跳过行 content=re.sub(r'\u000D\u...

使用 nltk 访问 wordnet 文件,无需 nltk.download()

作者:thefrollickingnerd 提问时间:10/23/2020

我正在尝试在没有 nltk.download('wordnet') 的情况下使用 wordnet,因为该功能被公司的 IT 策略阻止。我已经下载了wordnet文件并将其解压缩到我的本地目录中并使用了...

gensim Doc2Vec 模型的评估

作者:swygerts 提问时间:1/6/2023

我开发了一个管道来从文档中提取文本,对文本进行预处理,并在给定文档上训练gensim Doc2vec模型。鉴于我的语料库中有一份文档,我想推荐语料库中的其他文档。 我想知道如何在没有预定义的“好”建...

包含具有字符串拆分功能的函数

作者:Python_Hey 提问时间:2/15/2023

我正在尝试使用 contains() 函数在连接表时对两列进行匹配。 我有两个问题 问题 1 数据如下所示: col1: '[“红色”,“蓝色”,“绿色”,“是”,“紫色”,“汽车”,“黄色”]...

如何从字符串中提取非英语地址

作者:Tavlin 提问时间:2/8/2023

如果这里有人知道一个 python 库,该库只能从整个消息中提取土耳其的地址(文本最初是土耳其语),那将是一个很大的帮助。 一个翻译的例子是: “嗨,我叫塞勒姆,我有关于坠机现场的信息 ........

ImportError:无法从“textstat.textstat”导入名称“legacy_round”

作者:Donya 提问时间:3/13/2023

我正在尝试从以下位置导入:legacy_roundtextstat from textstat.textstat import textstatistics,legacy_round 但是我收到以...

R 中的 stemCompletion 问题

作者:d4rkneo 提问时间:4/27/2023

尊敬的 stack overflow 社区: 尝试在 R 中使用 tm 包 (https://cran.r-project.org/web/packages/tm/tm.pdf) 中的函数 stem...

在 R 中进行自然语言处理时保留某些停用词

作者:wisamb 提问时间:5/20/2023

我正在使用下面的代码在 R 中进行自然语言处理。我注意到删除停用词的行,删除了“不”这个词。我可以让它保留这个词吗?有没有办法查看它删除的所有单词? # Pre-processing chain c...


共66条 当前第5页