提问人:sreekanth 提问时间:10/28/2023 最后编辑:sreekanth 更新时间:10/28/2023 访问量:16
不平衡和规模或规模和不平衡。哪些数据用于交叉验证?
Imbalance and scale or scale and imbalance. Which data to use for cross validation?
问:
我有一个大型不平衡的数据集,其中包含很多列。在执行特征化、模型选择和调整时,混淆矩阵会生成除真阴性之外的所有零。我尝试了各种模型,但无法修复它。
现在我对我所遵循的方法有基本的疑问。以下是我遵循的步骤。请澄清
- 分离预测变量和目标变量 (X, y)
- 使用 stratify =y 将数据拆分为训练数据和测试数据
- 在X_train、y_train和X_test上使用 SMOTE y_test来平衡数据。新变量是 X_train_bal、y_train_bal 和 X_test_bal, y_test_bal。
- 仅缩放平衡自变量 (X_train_bal和X_test_bal)。新变量X_train_scaled, X_test_scaled。我是否应该也缩放目标变量 (y_train_bal 和 y_test_bal) 这里?
在进行交叉验证时,我应该使用上述步骤 1 或步骤 4 中的 X 和 Y 值。以下哪个选项是正确的?
cross_val_score (rf, X, y, cv = 10)
cross_val_score (rf, X_train_scaled, y_train_bal, cv = 10)
cross_val_score (rf, X_train_scaled, y_train_scaled, cv = 10)
我想在测试数据上获得适当的混淆矩阵。
答: 暂无答案
评论