文本挖掘 问答列表

R - tm.plugin.sentiment 中缺少函数

作者:Hack-R 提问时间:10/3/2014

R 有一个用于文本挖掘包的情感分析插件,称为 。我正在尝试使用此包,但在运行该函数时收到缺少函数错误。tmtm.plugin.sentimentscore # Libraries ---------...

1500 个 ID 中最常见的二元组计数,而不在一个 ID 中重复计数

作者:MfM 提问时间:8/15/2023

我正在尝试计算 1500 个 IDS 中最常见的二元组(每行 1 个 ID,有 1 个事件),而不计算每个 ID(行)中超过 1 倍的二元组。例如,如果我有以下 ID,我只想在每个 ID 中计算 1 ...

R语言中的文本挖掘:删除每个文档的第一句话

作者:USER12345 提问时间:8/10/2023

我有几份文件,不需要每份文件的第一句话。 到目前为止,我找不到解决方案。 下面是一个示例。数据的结构如下所示 case_number 发短信 1 今天是个好日子。阳光明媚。 2 今天是糟糕的一天。...

在 R 中从类似 xml 的文件中提取和结构化数据

作者:yeahman269 提问时间:8/2/2023

我想通过 R 利用此文件中的信息。 它看起来像一个XML文件,但标准将返回一个错误(我假设这与实例的属性具有多个值的事实有关。XML::xmlToDataFrame()<Nationality> ...

在 R 中文本文档的 1 到 5 行内同时出现两个单词列表单词

作者:Mohsin 提问时间:7/26/2023

我想检测单词列表“A”和单词列表“B”的 1 到 5 行内单词的出现频率。列表中的单词由“OR”的布尔运算符分隔,这意味着如果“A”中的任何一个单词出现在“B”中任何单词的上述范围内。 我尝试了各种...

Web 抓取 R 中的超链接文本?

作者:James Rider 提问时间:7/25/2023

https://www.nber.org/papers?page=1&perPage=50&sortBy=public_date 以上网页由一系列学术论文组成。这些论文的标题(例如,分组异质性下的稀...

在 R 中使用 tm 将包含元数据列的数据帧转换为语料库

作者:Rastko M. 提问时间:5/20/2023

将数据框转换为语料库时出现问题 您好,我有一个有 4 列的 df(1 是文本,另外 3 是一些附加信息)。 我想将 df 转换为语料库,以便每行的文本都是一个文档,同一行不同列中的相应信息是元数据。...

R 文本挖掘中的标准工具:文本清理、单一化等 [已关闭]

作者:Vasily A 提问时间:3/13/2023

已关闭。这个问题需要更加集中。它目前不接受答案。 想改进这个问题吗?更新问题,使其仅通过编辑这篇文章来关注一个问题。 9个月前关闭。 改进此问题 我想从一本书中构建一个词云,并认为它一定是文本...

使用 -matchit- 命令使用模糊字符串比较进行数据合并和清理

作者:Mariama Drame 提问时间:1/20/2023

我有两个数据库,一个是指定数据,另一个是数据1(参考),我想比较每个数据名称和数据2的代码,我必须通过编写名称来做到这一点,如果它们写得相同或相似,我必须有相同的代码,但他可以找到字典数据库中多行相同...

从网页中提取含义的完整内容

作者:user68142 提问时间:2/19/2009

我正在通过使用我的爬虫挖掘网络内容来做一些分析。网页通常在文章正文周围包含杂乱无章的内容(例如广告、不必要的图像和无关的链接),从而分散用户对实际内容的注意力。 据我所知,提取合理的内容是一个难题,...


共20条 当前第2页