NLP 问答列表

NLTK Python 库 Word Tokenizatio 错误 [已关闭]

作者:i222025 Amna Javaid 提问时间:11/9/2023

闭。此问题需要调试详细信息。它目前不接受答案。 编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 10天前关闭。 改进此问题 我正在尝试对文件进...

如何使用nltk下载非索引字时解决此错误

作者:Hasitha Gorrepati 提问时间:11/8/2023

导入 NLTK nltk.download('非索引字') 从 nltk.corpus 导入非索引字 stop_words = set(stopwords.words(“英语”)) 我在 kagg...

使用 AWS textract 从 pdf 中提取数据

作者:Abdul Rehman Baber 提问时间:11/8/2023

我有一个pdf,我可以从AWS textract中提取文本和其他数据,但有条形图,图形等,我也需要从中提取数据的方法,不仅仅是标签,还有这些图形所代表的内容。 我尝试使用 AWS Rekogniti...

检测数据框中仅包含表情符号的列中的行

作者:hxgx_0990 提问时间:11/8/2023

如何检测数据框中仅包含表情符号的列中的行?包含带有表情符号的文本的行将不予考虑。 给定 DF: 内容 😎🤘🏾 哇,太棒了!! 我很喜欢它😍😘 🤘🏾 摇摆 不推荐 😒😼 ...

如何相应地聚集鲨鱼攻击?

作者:Daa Zaa 提问时间:11/8/2023

我目前正在从事一个涉及分类的项目。这个项目是关于鲨鱼攻击的,我想将攻击分为以下几类:信息不足、错误攻击、喂食攻击和好奇攻击。我遇到的问题是我使用的是 K-mean,并且分类根据人类活动对其进行分类(我...

如果可以确定复合词的组成部分,给定单词部分的字典,并给定组合部分会改变它们的形式?

作者:Lance 提问时间:11/4/2023

在这一点上,我主要考虑的是梵语,该链接显示了梵语用于组合基本词和后缀或组合两个词的数十个“规则”,并且两个词之间的连接点改变了第一个词的结尾和第二个词的开头的形式。 但我想知道如何将其应用于任何语言...

是否有任何现有的 stop-ngrams 词汇表?

作者:Vincent 提问时间:11/3/2023

Github 中有几个英文停用词存储库。但是,是否有任何停止 2 克或停止 3 克或停止 4 克?我想从从庞大的语料库生成的 ngram 列表中删除 stop-ngrams。 我没有搜索到任何现有数...

使用变压器管道的正确命令是什么?

作者:Pramit 提问时间:11/16/2023

我安装了变压器,也安装了 huggingface,并且我成功地运行了这段代码,但我不知道现在发生了什么。之后我有pip安装管道,但它干扰了代码(所以我删除了它) from pipelines imp...

创建用于字符串匹配的嵌入

作者:user3585510 提问时间:10/17/2023

我有 4 个公司名称列表。让我们以谷歌公司为例。在列表 A 中,Google 被写成 Google Ltd,在第二个列表中,它被写成 Google Inc(扩展等),第 3 个包含 Beta Gogl...

微调不带标签的 Huggingface 模型

作者:pav 提问时间:11/14/2023

我读到Hugginface模型可以微调 在使用 PyTorch Trainer 训练一节中,有一个代码示例: from transformers import AutoModelForSequenc...


共66条 当前第3页