数据预处理知识经验-解网

作者：Javi 提问时间：11/15/2023

我有一个要清理的 txt 文件。目的是逐行读取文件，并删除新书面文件中所有不是以先前定义的字母（或关键字）组合开头的行。这是我的原始文档（要清理的文档）的样本： agigolón. (Tb. a...

作者：Nairda123 提问时间：5/18/2021

我有下面的 DataFrame 如您所见，ItemNo 1 被复制了 3 次，并且每列都有一个与之对应的值。我正在寻找一种方法来检查所有列，如果它们匹配，则将 Price、Sales 和 Sto...

作者：Shadi Farzankia 提问时间：8/18/2023

我想从我的句子中删除 nltk 停用词，但具有负面含义的停用词除外，例如：不、不、不能等。换句话说，我想从非索引字列表中排除否定词。我该怎么做？...

作者：Didlex 提问时间：10/27/2023

我正在尝试从 csv 文件中窗口一些数据进行时间序列训练，但是当我从中创建数据集并尝试将其窗口化时：make_csv_dataset() def window_data(self, data_ds,...

作者：Didlex 提问时间：11/8/2023

当尝试使用 flat_map 方法解压缩特征字典中的子 VariantDatasets 时，我很难理解要解析为 flat_map 方法的函数，以成功获取用于训练的时间序列数据集。我定义数据集并映射...

作者：Vinicento 提问时间：11/6/2023

我有一个大型的货币对分时数据数据集，我想使用傅里叶对其进行降噪。问题是我想自动找到一个用于过滤的侵扰点，它将成为更大系统的一部分，不断获取新数据并对其进行预处理。感谢您抽出宝贵时间:) 这是我的...

作者：Edvin Simic 提问时间：11/8/2023

我有一个代表机场空侧的数据集、23 个自变量和 1 个目标值：受管制飞机的近期（延迟超过 15 分钟）。我使用了帖子中描述的代码，该代码使用不同的回归模型（随机森林、线性回归、GradientBoos...

作者：evader110 提问时间：11/15/2023

所以我有一个 JSON 数据集，其格式如下： [{ "answer": "...", "question": "...", "context": "..." }, ... ] 所有字段...

作者：jdbanfill 提问时间：11/15/2023

我在为我的数据创建预处理器时遇到问题。我的预处理器由一个用于插补 NaN 和缩放值的数值特征管道组成。它还具有用于插补 NaN 和目标编码的分类数据管道。最终的转换器是一个选择器，它保留了满足特定条件...