挖掘知识经验-解网

作者：Mohsin 提问时间：7/26/2023

我想检测单词列表“A”和单词列表“B”的 1 到 5 行内单词的出现频率。列表中的单词由“OR”的布尔运算符分隔，这意味着如果“A”中的任何一个单词出现在“B”中任何单词的上述范围内。我尝试了各种...

作者：James Rider 提问时间：8/25/2023

我正在尝试使用以下代码从 R 中的 PDF（报纸头版）中提取所有文本： library(pdftools) text<-pdftools::pdf_text(pdf = "https://www.n...

作者：Vincent ISOZ 提问时间：8/15/2023

我从这里获取了以下文本聚类代码脚本： https://medium.com/@SAPCAI/text-clustering-with-r-an-introduction-for-data-scien...

作者：MfM 提问时间：8/15/2023

我正在尝试计算 1500 个 IDS 中最常见的二元组（每行 1 个 ID，有 1 个事件），而不计算每个 ID（行）中超过 1 倍的二元组。例如，如果我有以下 ID，我只想在每个 ID 中计算 1 ...

作者：USER12345 提问时间：8/10/2023

我有几份文件，不需要每份文件的第一句话。到目前为止，我找不到解决方案。下面是一个示例。数据的结构如下所示 case_number 发短信 1 今天是个好日子。阳光明媚。 2 今天是糟糕的一天。...

作者：yeahman269 提问时间：8/2/2023

我想通过 R 利用此文件中的信息。它看起来像一个XML文件，但标准将返回一个错误（我假设这与实例的属性具有多个值的事实有关。XML::xmlToDataFrame()<Nationality> ...

作者：Rastko M. 提问时间：5/20/2023

将数据框转换为语料库时出现问题您好，我有一个有 4 列的 df（1 是文本，另外 3 是一些附加信息）。我想将 df 转换为语料库，以便每行的文本都是一个文档，同一行不同列中的相应信息是元数据。...

作者：Vasily A 提问时间：3/13/2023

已关闭。这个问题需要更加集中。它目前不接受答案。想改进这个问题吗？更新问题，使其仅通过编辑这篇文章来关注一个问题。 9个月前关闭。改进此问题我想从一本书中构建一个词云，并认为它一定是文本...

作者：Ahsk 提问时间：4/11/2023

我进行了几次实验，持续了大约一周。对于每周，我希望保留降水开始到周末的周期/行。我知道如何摒弃干燥的几周，但我不确定如何选择从下雨开始到潮湿周结束的时期。我的数据如下所示在中，我只想保留...

作者：Vahid 提问时间：9/1/2023

我有一个包含 500 篇研究文章的语料库，我想提取前 4 克，不仅仅是基于最高频率，而是与一般研究文章类型的相关性（该类型的 4 克特征）。推荐使用 TF-IDF，使用 Scikit-learn，...