混淆矩阵仅显示所选标签的对角线值，尽管存在错误分类-解网

问：

我正在尝试从我的数据中为标签子集创建一个混淆矩阵。尽管对行进行了错误分类，但生成的混淆矩阵在除对角线外的所有地方都显示零。我错过了什么吗？

代码如下：

import pandas as pd
from sklearn.metrics import confusion_matrix
    
confusion_df = pd.read_csv("./confusion_data.csv")
confusion_df.head() # this dataframe contains true and predicted values of all the test observations
    
selected_labels = [14, 30, 57, 79, 83, 98, 101, 105, 137, 163]
    
# Filter the dataframe to keep only rows from selected labels list
filtered_df = confusion_df[(confusion_df['True'].isin(selected_labels))]
filtered_df = filtered_df.reset_index(drop=True)

# Generate the confusion matrix
confusion_mat = confusion_matrix(filtered_df['True'], filtered_df['Predicted'], labels=selected_labels)

运行此代码后，我的混淆矩阵如下所示：

array([[1602,    0,    0,    0,    0,    0,    0,    0,    0,    0],
       [   0, 1601,    0,    0,    0,    0,    0,    0,    0,    0],
       [   0,    0, 1601,    0,    0,    0,    0,    0,    0,    0],
       [   0,    0,    0, 1597,    0,    0,    0,    0,    0,    0],
       [   0,    0,    0,    0, 1601,    0,    0,    0,    0,    0],
       [   0,    0,    0,    0,    0, 1600,    0,    0,    0,    0],
       [   0,    0,    0,    0,    0,    0, 1596,    0,    0,    0],
       [   0,    0,    0,    0,    0,    0,    0, 1599,    0,    0],
       [   0,    0,    0,    0,    0,    0,    0,    0, 1569,    0],
       [   0,    0,    0,    0,    0,    0,    0,    0,    0, 1602]],
      dtype=int64)

鉴于我有 45 个错误分类的行，我预计对角线会出现一些非零值。我的代码有错误吗？

scikit-learn 混淆矩阵多类分类

当您使用计算混淆矩阵时，它仅在和类的选定标签中查找匹配和错误分类。由于您的标签未被过滤为仅包含，因此任何不属于的预测都会被有效忽略，从而导致对角线外元素为零。labels=selected_labels'True''Predicted''Predicted'selected_labelsselected_labels

因此，您希望同时筛选 true 列或（包括）预测列：

# Filter the dataframe to keep only rows where either 'True' or 'Predicted' is in selected_labels list
filtered_df = confusion_df[(confusion_df['True'].isin(selected_labels)) | (confusion_df['Predicted'].isin(selected_labels))]

上一个：R 代码警告：要替换的项目数不是替换长度的倍数

下一个：如何为单个类别预测变量生成混淆矩阵？

混淆矩阵仅显示所选标签的对角线值，尽管存在错误分类

Confusion Matrix only shows diagonal values for selected labels despite misclassifications

评论