Sklearn-随机森林拟合-浮点字符串和标签不匹配样本

2024-06-02 • 问答

我快要写一个脚本了，该脚本需要一些文本数据（注释），并评估注释是否良好（适当/不适当，无论如何）。我正在尝试查看功能的重要性，并且我有以下内容：

label = 'check'
ignore_cols = [label,'comment','comment_clean']
features = [c for c in df.columns if c not in ignore_cols]

X_train,X_test,y_train,y_test = train_test_split(df[features],df[label],test_size = 0.20,random_state = 42)
#X_train = pd.get_dummies(df[features])
#X_train = X[:,None]

rf = RandomForestClassifier(n_estimators = 100,random_state = 42)
rf.fit(X_train,y_train)`

我遇到的第一个问题是X数据集中的2列是字符串。我通过使用已注释掉的第一行来解决该问题：X_train = pd.get_dummies（df [features]）。当我这样做时，我又收到一条错误消息，指出我的标签与样品数量不符。然后，我使用注释掉的第二行：X_train = X [:,None]，但是现在它使我返回到下一个类型为string的列。有没有解决的办法，还是解决这两个问题的更好的办法？他们阻止了我运行fit函数。非常感谢您的帮助！

Sklearn-随机森林拟合-浮点字符串和标签不匹配样本

mada_baidu 回答：Sklearn-随机森林拟合-浮点字符串和标签不匹配样本

大家都在问