不平衡和规模或规模和不平衡。哪些数据用于交叉验证?

Imbalance and scale or scale and imbalance. Which data to use for cross validation?

提问人:sreekanth 提问时间:10/28/2023 最后编辑:sreekanth 更新时间:10/28/2023 访问量:16

问:

我有一个大型不平衡的数据集,其中包含很多列。在执行特征化、模型选择和调整时,混淆矩阵会生成除真阴性之外的所有零。我尝试了各种模型,但无法修复它。

现在我对我所遵循的方法有基本的疑问。以下是我遵循的步骤。请澄清

  1. 分离预测变量和目标变量 (X, y)
  2. 使用 stratify =y 将数据拆分为训练数据和测试数据
  3. 在X_train、y_train和X_test上使用 SMOTE y_test来平衡数据。新变量是 X_train_bal、y_train_bal 和 X_test_bal, y_test_bal。
  4. 仅缩放平衡自变量 (X_train_bal和X_test_bal)。新变量X_train_scaled, X_test_scaled。我是否应该也缩放目标变量 (y_train_bal 和 y_test_bal) 这里?

在进行交叉验证时,我应该使用上述步骤 1 或步骤 4 中的 X 和 Y 值。以下哪个选项是正确的?

  1. cross_val_score (rf, X, y, cv = 10)
  2. cross_val_score (rf, X_train_scaled, y_train_bal, cv = 10)
  3. cross_val_score (rf, X_train_scaled, y_train_scaled, cv = 10)

我想在测试数据上获得适当的混淆矩阵。

机器学习 特征选择 不平衡数据 打击

评论

0赞 desertnaut 10/28/2023
欢迎来到 SO。这不是一个编程问题,因此在这里是题外话;请参阅 stackoverflow.com/tags/machine-learning/info 中的介绍和注释(请注意,补救措施不是删除 ML 标签)。

答: 暂无答案