使用 Python 在新文件中写入以 determine 子字符串开头的行
作者:Javi 提问时间:11/15/2023
我有一个要清理的 txt 文件。目的是逐行读取文件,并删除新书面文件中所有不是以先前定义的字母(或关键字)组合开头的行。 这是我的原始文档(要清理的文档)的样本: agigolón. (Tb. a...
数据预处理 问答列表
作者:Javi 提问时间:11/15/2023
我有一个要清理的 txt 文件。目的是逐行读取文件,并删除新书面文件中所有不是以先前定义的字母(或关键字)组合开头的行。 这是我的原始文档(要清理的文档)的样本: agigolón. (Tb. a...
作者:Nairda123 提问时间:5/18/2021
我有下面的 DataFrame 如您所见,ItemNo 1 被复制了 3 次,并且每列都有一个与之对应的值。 我正在寻找一种方法来检查所有列,如果它们匹配,则将 Price、Sales 和 Sto...
作者:Shadi Farzankia 提问时间:8/18/2023
我想从我的句子中删除 nltk 停用词,但具有负面含义的停用词除外,例如:不、不、不能等。换句话说,我想从非索引字列表中排除否定词。我该怎么做?...
作者:Didlex 提问时间:10/27/2023
我正在尝试从 csv 文件中窗口一些数据进行时间序列训练,但是当我从中创建数据集并尝试将其窗口化时:make_csv_dataset() def window_data(self, data_ds,...
作者:Didlex 提问时间:11/8/2023
当尝试使用 flat_map 方法解压缩特征字典中的子 VariantDatasets 时,我很难理解要解析为 flat_map 方法的函数,以成功获取用于训练的时间序列数据集。 我定义数据集并映射...
作者:Vinicento 提问时间:11/6/2023
我有一个大型的货币对分时数据数据集,我想使用傅里叶对其进行降噪。问题是我想自动找到一个用于过滤的侵扰点,它将成为更大系统的一部分,不断获取新数据并对其进行预处理。 感谢您抽出宝贵时间:) 这是我的...
作者:Edvin Simic 提问时间:11/8/2023
我有一个代表机场空侧的数据集、23 个自变量和 1 个目标值:受管制飞机的近期(延迟超过 15 分钟)。我使用了帖子中描述的代码,该代码使用不同的回归模型(随机森林、线性回归、GradientBoos...
作者:evader110 提问时间:11/15/2023
所以我有一个 JSON 数据集,其格式如下: [{ "answer": "...", "question": "...", "context": "..." }, ... ] 所有字段...
作者:jdbanfill 提问时间:11/15/2023
我在为我的数据创建预处理器时遇到问题。我的预处理器由一个用于插补 NaN 和缩放值的数值特征管道组成。它还具有用于插补 NaN 和目标编码的分类数据管道。最终的转换器是一个选择器,它保留了满足特定条件...