经过培训和测试后，我该如何处理新数据？

2024-05-19 • 问答

我有2个问题。我有一个包含分类特征和数字的数据集。我的目的是预测个人的贷款等级。

我对 dataset1 采取的步骤如下：

1）从数据框中删除了分类特征
2）Onehotencoded的分类特征
3）将pd.concat的分类特征与主数据框一起放回并删除目标变量
4）train_test_split分为70％用于培训和30％用于测试
5）应用了PCA，fit_transform训练集和transform测试集
6）发现随机森林有效，因此我使用RandomForestClassifier作为主要算法
7）测试了模型，准确性得分为80％
8）调整模型并将其提高到81％

现在我收到了一大堆数据，我们称之为 dataset2 。我用仅新数据集重复了从1到3的步骤。接下来，我只是删除了目标变量，并使用了RF.predict()。 我知道它是错误的，我认为我应该适合该算法，但是形状有所不同。 Train_test_split仅 dataset2 来适合该算法是没有意义的对我来说， dataset1 的目的是什么？我为成为菜鸟而道歉，但是我对如何使用新数据集处理和预测变量感到非常困惑。

我应该1）重新训练我的模型吗？如果是这样，我应该怎么做？ 2）我是否在 dataset1 下合并了新的 dataset2 ，然后再次拆分？这就是我对 dataset1

所做的工作

RF = RandomForestClassifier() 
model = RF.fit(x_train1,y_train)
y_pred = model.predict(x_test1)

这就是我对数据集2所做的

new_pred= model.predict(x_test2)

如果我的任何步骤有误，请随时告诉我。同时请提供任何解决方案。我确实尝试实现管道，但是无法像以前一样重新创建准确性。

任何其他解决方案均受到欢迎。

经过培训和测试后，我该如何处理新数据？

hongchengge 回答：经过培训和测试后，我该如何处理新数据？

大家都在问