Sklearn-随机森林拟合-浮点字符串和标签不匹配样本

我快要写一个脚本了,该脚本需要一些文本数据(注释),并评估注释是否良好(适当/不适当,无论如何)。我正在尝试查看功能的重要性,并且我有以下内容:

label = 'check'
ignore_cols = [label,'comment','comment_clean']
features = [c for c in df.columns if c not in ignore_cols]

X_train,X_test,y_train,y_test = train_test_split(df[features],df[label],test_size = 0.20,random_state = 42)
#X_train = pd.get_dummies(df[features])
#X_train = X[:,None]

rf = RandomForestClassifier(n_estimators = 100,random_state = 42)
rf.fit(X_train,y_train)`

我遇到的第一个问题是X数据集中的2列是字符串。我通过使用已注释掉的第一行来解决该问题:X_train = pd.get_dummies(df [features])。当我这样做时,我又收到一条错误消息,指出我的标签与样品数量不符。然后,我使用注释掉的第二行:X_train = X [:,None],但是现在它使我返回到下一个类型为string的列。有没有解决的办法,还是解决这两个问题的更好的办法?他们阻止了我运行fit函数。非常感谢您的帮助!

mada_baidu 回答:Sklearn-随机森林拟合-浮点字符串和标签不匹配样本

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2571611.html

大家都在问