我有2个问题。我有一个包含分类特征和数字的数据集。我的目的是预测个人的贷款等级。
我对 dataset1 采取的步骤如下:
1)从数据框中删除了分类特征
2)Onehotencoded
的分类特征
3)将pd.concat
的分类特征与主数据框一起放回并删除目标变量
4)train_test_split
分为70%用于培训和30%用于测试
5)应用了PCA,fit_transform
训练集和transform
测试集
6)发现随机森林有效,因此我使用RandomForestClassifier
作为主要算法
7)测试了模型,准确性得分为80%
8)调整模型并将其提高到81%
现在我收到了一大堆数据,我们称之为 dataset2 。我用仅新数据集重复了从1到3的步骤。接下来,我只是删除了目标变量,并使用了RF.predict()
。 我知道它是错误的,我认为我应该适合该算法,但是形状有所不同。 Train_test_split
仅 dataset2 来适合该算法是没有意义的对我来说, dataset1 的目的是什么?我为成为菜鸟而道歉,但是我对如何使用新数据集处理和预测变量感到非常困惑。
我应该1)重新训练我的模型吗?如果是这样,我应该怎么做? 2)我是否在 dataset1 下合并了新的 dataset2 ,然后再次拆分?这就是我对 dataset1
所做的工作RF = RandomForestClassifier()
model = RF.fit(x_train1,y_train)
y_pred = model.predict(x_test1)
这就是我对数据集2所做的
new_pred= model.predict(x_test2)
如果我的任何步骤有误,请随时告诉我。同时请提供任何解决方案。我确实尝试实现管道,但是无法像以前一样重新创建准确性。
任何其他解决方案均受到欢迎。