挖掘 问答列表

在 R 中文本文档的 1 到 5 行内同时出现两个单词列表单词

作者:Mohsin 提问时间:7/26/2023

我想检测单词列表“A”和单词列表“B”的 1 到 5 行内单词的出现频率。列表中的单词由“OR”的布尔运算符分隔,这意味着如果“A”中的任何一个单词出现在“B”中任何单词的上述范围内。 我尝试了各种...

文本挖掘报纸pdf在R?

作者:James Rider 提问时间:8/25/2023

我正在尝试使用以下代码从 R 中的 PDF(报纸头版)中提取所有文本: library(pdftools) text<-pdftools::pdf_text(pdf = "https://www.n...

R 文本聚类(单词属于哪个聚类)

作者:Vincent ISOZ 提问时间:8/15/2023

我从这里获取了以下文本聚类代码脚本: https://medium.com/@SAPCAI/text-clustering-with-r-an-introduction-for-data-scien...

1500 个 ID 中最常见的二元组计数,而不在一个 ID 中重复计数

作者:MfM 提问时间:8/15/2023

我正在尝试计算 1500 个 IDS 中最常见的二元组(每行 1 个 ID,有 1 个事件),而不计算每个 ID(行)中超过 1 倍的二元组。例如,如果我有以下 ID,我只想在每个 ID 中计算 1 ...

R语言中的文本挖掘:删除每个文档的第一句话

作者:USER12345 提问时间:8/10/2023

我有几份文件,不需要每份文件的第一句话。 到目前为止,我找不到解决方案。 下面是一个示例。数据的结构如下所示 case_number 发短信 1 今天是个好日子。阳光明媚。 2 今天是糟糕的一天。...

在 R 中从类似 xml 的文件中提取和结构化数据

作者:yeahman269 提问时间:8/2/2023

我想通过 R 利用此文件中的信息。 它看起来像一个XML文件,但标准将返回一个错误(我假设这与实例的属性具有多个值的事实有关。XML::xmlToDataFrame()<Nationality> ...

在 R 中使用 tm 将包含元数据列的数据帧转换为语料库

作者:Rastko M. 提问时间:5/20/2023

将数据框转换为语料库时出现问题 您好,我有一个有 4 列的 df(1 是文本,另外 3 是一些附加信息)。 我想将 df 转换为语料库,以便每行的文本都是一个文档,同一行不同列中的相应信息是元数据。...

R 文本挖掘中的标准工具:文本清理、单一化等 [已关闭]

作者:Vasily A 提问时间:3/13/2023

已关闭。这个问题需要更加集中。它目前不接受答案。 想改进这个问题吗?更新问题,使其仅通过编辑这篇文章来关注一个问题。 9个月前关闭。 改进此问题 我想从一本书中构建一个词云,并认为它一定是文本...

如何根据R中的条件选择某个时期?

作者:Ahsk 提问时间:4/11/2023

我进行了几次实验,持续了大约一周。对于每周,我希望保留降水开始到周末的周期/行。 我知道如何摒弃干燥的几周,但我不确定如何选择从下雨开始到潮湿周结束的时期。 我的数据如下所示 在 中,我只想保留...

在语料库中提取“代表性”(不一定是最常见的)4 克的推荐方法?TF-IDF 或

作者:Vahid 提问时间:9/1/2023

我有一个包含 500 篇研究文章的语料库,我想提取前 4 克,不仅仅是基于最高频率,而是与一般研究文章类型的相关性(该类型的 4 克特征)。 推荐使用 TF-IDF,使用 Scikit-learn,...


共41条 当前第1页