我快要写一个脚本了,该脚本需要一些文本数据(注释),并评估注释是否良好(适当/不适当,无论如何)。我正在尝试查看功能的重要性,并且我有以下内容:
label = 'check'
ignore_cols = [label,'comment','comment_clean']
features = [c for c in df.columns if c not in ignore_cols]
X_train,X_test,y_train,y_test = train_test_split(df[features],df[label],test_size = 0.20,random_state = 42)
#X_train = pd.get_dummies(df[features])
#X_train = X[:,None]
rf = RandomForestClassifier(n_estimators = 100,random_state = 42)
rf.fit(X_train,y_train)`
我遇到的第一个问题是X数据集中的2列是字符串。我通过使用已注释掉的第一行来解决该问题:X_train = pd.get_dummies(df [features])。当我这样做时,我又收到一条错误消息,指出我的标签与样品数量不符。然后,我使用注释掉的第二行:X_train = X [:,None],但是现在它使我返回到下一个类型为string的列。有没有解决的办法,还是解决这两个问题的更好的办法?他们阻止了我运行fit函数。非常感谢您的帮助!