数据科学 问答列表

欺诈检测的多个目标值

作者:liam song 提问时间:11/17/2023

我有一个数据集,它在目标列中有多个值。我正在解决的问题是一个金融(贷款)欺诈检测问题,我试图识别透视违约者。 我没有遇到过目标列具有多个值的问题。通常,它在目标列中的零和一。我是继续执行正常的预测过程...

如何在不删除列的情况下忽略 LGBMClassifier 中的 ID 列?

作者:zeman 提问时间:10/9/2023

我需要保留我的列来对测试数据进行预测,但模型用作预测变量,这是不需要的。感谢您的帮助!idid x_train = train.drop(columns=['tgt'], axis=1) y_tra...

通过将 URL 从其他 *.py 文件传递给 Scrapy 来从 url 获取数据

作者:Claire Duong 提问时间:6/14/2020

我正在使用 Scrapy 从网站获取数据,这是我在 Scrapy 文件夹蜘蛛中文件 spider.py 的代码 class ThumbSpider(scrapy.Spider): userInpu...

使用 sklearn 在 Python 中出现多元线性回归错误 [已关闭]

作者:wdl4076 提问时间:5/11/2021

闭。此问题需要调试详细信息。它目前不接受答案。 编辑问题以包括所需的行为、特定问题或错误以及重现问题所需的最短代码。这将帮助其他人回答这个问题。 2年前关闭。 改进此问题 我正在尝试对数据集执...

将多个工作表连接在一起,并将列作为其工作表名称

作者:Nairda123 提问时间:6/22/2021

我在 Python 中有一个带有 Pandas 的函数,可以转换从 excel 文件读入的一些 df。 该 Excel 文件有 5 张纸,我想通过相同的功能进行处理,然后在最后将它们连接起来,并增加...

如何使用sql查询修复python中的数据获取函数?

作者:Moinak Dey 提问时间:7/5/2023

我开发了一个函数,它使用基于用户输入的参数化 sql 来获取记录。但是,我在查询的 where 子句中遇到了类型不匹配问题。请帮我修复它。 Start_Date 和 End_Date 是字符串类型,而...

平衡多实例学习与不平衡类的数据

作者:Kenny Ynnek 提问时间:9/11/2023

平衡多实例学习与不平衡类的数据 问题陈述(简体): 我有一个 CSV 文件,其中每行都标记为 A 类或 B 类,A 类有 906 个实例,而 B 类有 255 个实例。我想使用此多实例学习 (MI...

如何称呼粗化数据的过程以使其更真实?

作者:faulbär 提问时间:9/28/2023

在我目前的项目中,我使用合成网格数据,为了使其更逼真,我添加了噪声并省略了一些测量值,因为我不希望在真实网格中到处都有数据测量值。为了更好地捕获真实数据,是否有对合成数据进行粗加工的既定措辞? 到目...

在单热编码和标签编码之间进行选择以进行时间序列预测

作者:harsh patel 提问时间:10/6/2023

我正在研究一个时间序列预测问题,比如说 10 个分类属性,我不确定是使用标签编码还是单热编码。由于类别之间没有序数关系,因此我倾向于单热编码。但是,某些变量具有 100 多个类别,可能导致 800-9...

修改 R 代码以获取 5 个或更多方程和未知变量的增强系数矩阵

作者:Zack Lorton 提问时间:10/8/2023

谁能帮我修改这段代码?从上周开始,我就陷入了困境。我正在尝试使此代码适用于以下等式,但没有任何效果。 此外,我这样做是为了为高斯消元和高斯-乔丹消元创建 2 个 R 函数。如果你对此很了解,你也能帮...


共38条 当前第3页