经过培训和测试后,我该如何处理新数据?

我有2个问题。我有一个包含分类特征和数字的数据集。我的目的是预测个人的贷款等级。

我对 dataset1 采取的步骤如下:

1)从数据框中删除了分类特征
2)Onehotencoded的分类特征
3)将pd.concat的分类特征与主数据框一起放回并删除目标变量
4)train_test_split分为70%用于培训和30%用于测试
5)应用了PCA,fit_transform训练集和transform测试集
6)发现随机森林有效,因此我使用RandomForestClassifier作为主要算法
7)测试了模型,准确性得分为80%
8)调整模型并将其提高到81%

现在我收到了一大堆数据,我们称之为 dataset2 。我用新数据集重复了从1到3的步骤。接下来,我只是删除了目标变量,并使用了RF.predict()我知道它是错误的,我认为我应该适合该算法,但是形状有所不同。 Train_test_split dataset2 来适合该算法是没有意义的对我来说, dataset1 的目的是什么?我为成为菜鸟而道歉,但是我对如何使用新数据集处理和预测变量感到非常困惑。

我应该1)重新训练我的模型吗?如果是这样,我应该怎么做? 2)我是否在 dataset1 下合并了新的 dataset2 ,然后再次拆分?这就是我对 dataset1

所做的工作
RF = RandomForestClassifier() 
model = RF.fit(x_train1,y_train)
y_pred = model.predict(x_test1)  

这就是我对数据集2所做的

new_pred= model.predict(x_test2)

如果我的任何步骤有误,请随时告诉我。同时请提供任何解决方案。我确实尝试实现管道,但是无法像以前一样重新创建准确性。

任何其他解决方案均受到欢迎。

hongchengge 回答:经过培训和测试后,我该如何处理新数据?

对于形状来说更有意义。

我建议的是检查您的数据分布,因为它有时在我身上发生:每个数据集中的数据是什么?我解释了我的自我:在对人们的兴趣进行分类时,我曾经遇到过同样的问题。我的火车,开发人员和测试仪来自我所获得的有关城市居民的数据。但是,几周后,当我尝试对生活在农村的人们使用分类器时,效果却很差。实际上,这两个数据集并非来自同一分布。

我认为也许您可能面临着同样的问题。检查您的两个数据集。

本文链接:https://www.f2er.com/2707148.html

大家都在问