数据预处理 问答列表

使用 Python 在新文件中写入以 determine 子字符串开头的行

作者:Javi 提问时间:11/15/2023

我有一个要清理的 txt 文件。目的是逐行读取文件,并删除新书面文件中所有不是以先前定义的字母(或关键字)组合开头的行。 这是我的原始文档(要清理的文档)的样本: agigolón. (Tb. a...

Pandas - 如何将重复的项目合并为一个包含多个列的项目

作者:Nairda123 提问时间:5/18/2021

我有下面的 DataFrame 如您所见,ItemNo 1 被复制了 3 次,并且每列都有一个与之对应的值。 我正在寻找一种方法来检查所有列,如果它们匹配,则将 Price、Sales 和 Sto...

从 NLTK 非索引字中排除否定词

作者:Shadi Farzankia 提问时间:8/18/2023

我想从我的句子中删除 nltk 停用词,但具有负面含义的停用词除外,例如:不、不、不能等。换句话说,我想从非索引字列表中排除否定词。我该怎么做?...

如何窗口 make_csv_dataset()

作者:Didlex 提问时间:10/27/2023

我正在尝试从 csv 文件中窗口一些数据进行时间序列训练,但是当我从中创建数据集并尝试将其窗口化时:make_csv_dataset() def window_data(self, data_ds,...

tf.data API 'flat_map' 方法,用于在字典中使用 VariantDatasets 在窗口方法后解包

作者:Didlex 提问时间:11/8/2023

当尝试使用 flat_map 方法解压缩特征字典中的子 VariantDatasets 时,我很难理解要解析为 flat_map 方法的函数,以成功获取用于训练的时间序列数据集。 我定义数据集并映射...

快速傅里叶滤波侵入/外汇即时报价数据去噪

作者:Vinicento 提问时间:11/6/2023

我有一个大型的货币对分时数据数据集,我想使用傅里叶对其进行降噪。问题是我想自动找到一个用于过滤的侵扰点,它将成为更大系统的一部分,不断获取新数据并对其进行预处理。 感谢您抽出宝贵时间:) 这是我的...

机器学习机场空侧预测 KPI

作者:Edvin Simic 提问时间:11/8/2023

我有一个代表机场空侧的数据集、23 个自变量和 1 个目标值:受管制飞机的近期(延迟超过 15 分钟)。我使用了帖子中描述的代码,该代码使用不同的回归模型(随机森林、线性回归、GradientBoos...

我应该如何预处理此数据集以执行“问答”任务?皮火炬

作者:evader110 提问时间:11/15/2023

所以我有一个 JSON 数据集,其格式如下: [{ "answer": "...", "question": "...", "context": "..." }, ... ] 所有字段...

为什么我的预处理器会出现数据类型错误?

作者:jdbanfill 提问时间:11/15/2023

我在为我的数据创建预处理器时遇到问题。我的预处理器由一个用于插补 NaN 和缩放值的数值特征管道组成。它还具有用于插补 NaN 和目标编码的分类数据管道。最终的转换器是一个选择器,它保留了满足特定条件...


共9条 当前第1页