将连续数据离散为混淆矩阵的列

2024-05-17 • 问答

目标是为选定的模型列创建一个混淆矩阵，并将其与真实列进行比较，方法是将值离散到区域中。

我有一个大型数据集，我在其中构建了大量模型并创建了预测 (modelx)，以及类似于以下模型的真实值 (true)：

模型和真实列的值都在 [0,1] 之间。我想创建一个函数，我可以在其中指定区域（例如：[0,0.25,0.5,0.75,1]）并将选定的模型（列）离散化为二进制值（除非分类字符串有效），这些值是否是否在区域内。

在上面的例子中，我有四个区域，从这里我想创建一个所选模型的混淆矩阵。

import pandas as pd import from sklearn.metrics import confusion_matrix import plotly.express as px df = pd.DataFrame(np.random.random((100,7)),columns = [j for j in range(6)] + ["true"]) df_binned = pd.DataFrame() for col in df.columns: df_binned[col] = pd.cut(df[col],bins=[0,0.25,0.5,0.75,1.0],labels=list("lmhs")) # generate confusion matrix cm = confusion_matrix(y_true=df_binned.true,y_pred=df_binned[0]) # plot px.imshow(cm).show()

将连续数据离散为混淆矩阵的列

yayammi 回答：将连续数据离散为混淆矩阵的列

大家都在问