在单热编码和标签编码之间进行选择以进行时间序列预测
作者:harsh patel 提问时间:10/6/2023
我正在研究一个时间序列预测问题,比如说 10 个分类属性,我不确定是使用标签编码还是单热编码。由于类别之间没有序数关系,因此我倾向于单热编码。但是,某些变量具有 100 多个类别,可能导致 800-9...
科学 问答列表
作者:harsh patel 提问时间:10/6/2023
我正在研究一个时间序列预测问题,比如说 10 个分类属性,我不确定是使用标签编码还是单热编码。由于类别之间没有序数关系,因此我倾向于单热编码。但是,某些变量具有 100 多个类别,可能导致 800-9...
作者:faulbär 提问时间:9/28/2023
在我目前的项目中,我使用合成网格数据,为了使其更逼真,我添加了噪声并省略了一些测量值,因为我不希望在真实网格中到处都有数据测量值。为了更好地捕获真实数据,是否有对合成数据进行粗加工的既定措辞? 到目...
作者:tobias 提问时间:9/28/2023
据我了解,标签编码用于名义数据(不是序数),以便将它们映射到数字(例如:标签 [苹果、香蕉、胡萝卜] 映射到 [0, 1, 2],但哪个标签映射到哪个数字并不重要)。序数编码执行相同的映射,但以预定义...
作者:firefantasy 提问时间:9/21/2023
这个问题在这里已经有答案了: 负整数的位移? (1 个答案) 如何在 python 中对有符号和无符号值进行算术右移 (3 个答案) 2个月前关闭。 我想知道要结合 - <<或>>数量使用,但我发现...
作者:Ahmed ZEER 提问时间:9/14/2023
如果每个单元都有一个字节容量,则由 4MB 组成的内存中最大内存地址的十六进制表示形式是什么? 由于 4MB 等于 4*1,000,000 字节,我可以假设有 4,000,000 个单元格吗?毕竟,...
作者:Kenny Ynnek 提问时间:9/11/2023
平衡多实例学习与不平衡类的数据 问题陈述(简体): 我有一个 CSV 文件,其中每行都标记为 A 类或 B 类,A 类有 906 个实例,而 B 类有 255 个实例。我想使用此多实例学习 (MI...
作者:Red shoes 提问时间:8/30/2023
我有两个名为 df 和 df2 的数据帧,行数相同。我想根据一些逻辑比较在 df 中创建一个新列,如下所示 df['new_col']='nothing' df.loc[(df2['col2']....
作者:universitystudent218 提问时间:8/22/2023
理想输出的屏幕截图: 我目前正在制作向量和矩阵,并希望格式化它们,以便打印的矩阵在每个矩阵元素中的小数点前仅显示一位数字(例如 x.2、x.8 而不是 xyz.2 或 xyz.8)。下面的 Jupy...
作者:Jevgenij Posaškov 提问时间:10/24/2023
我无法从NCBI获得大肠杆菌基因组的数据。为此,我使用了两个文档来获取数据 http://biopython.org/DIST/docs/tutorial/Tutorial.html#sec149 h...
作者:Nikitosiwe 提问时间:8/19/2023
我有一个常规的表格数据集,从数据库中添加了 100 个要素 我想把它推送到一个常规的sklearn.pipeline中,其中将有预处理、编码、一些自定义转换器等。 倒数第二个估计器是 Select...