不平衡和规模或规模和不平衡。哪些数据用于交叉验证？-解网

问：

我有一个大型不平衡的数据集，其中包含很多列。在执行特征化、模型选择和调整时，混淆矩阵会生成除真阴性之外的所有零。我尝试了各种模型，但无法修复它。

现在我对我所遵循的方法有基本的疑问。以下是我遵循的步骤。请澄清

分离预测变量和目标变量（X， y）
使用 stratify =y 将数据拆分为训练数据和测试数据
在X_train、y_train和X_test上使用 SMOTE y_test来平衡数据。新变量是 X_train_bal、y_train_bal 和 X_test_bal， y_test_bal。
仅缩放平衡自变量（X_train_bal和X_test_bal）。新变量X_train_scaled， X_test_scaled。我是否应该也缩放目标变量（y_train_bal 和 y_test_bal）这里？

在进行交叉验证时，我应该使用上述步骤 1 或步骤 4 中的 X 和 Y 值。以下哪个选项是正确的？

我想在测试数据上获得适当的混淆矩阵。

机器学习特征选择不平衡数据打击

不平衡和规模或规模和不平衡。哪些数据用于交叉验证？