Q1)我在一个高度不平衡的数据集中工作,该数据集具有300列* 400000行,在将数据分成训练和测试集之前,我是否可以对数据进行欠采样?是否会导致模型过度拟合?
Q2)是否可以对每个目标类别分别应用PCA(降维技术)?例如,我的目标类有0.1个标签,我可以将PCA应用于标签0的所有样本,然后将PCA应用于标签1的所有样本,然后将结果连接到一个数据集中吗?
非常感谢您的帮助!
Q1)我在一个高度不平衡的数据集中工作,该数据集具有300列* 400000行,在将数据分成训练和测试集之前,我是否可以对数据进行欠采样?是否会导致模型过度拟合?
Q2)是否可以对每个目标类别分别应用PCA(降维技术)?例如,我的目标类有0.1个标签,我可以将PCA应用于标签0的所有样本,然后将PCA应用于标签1的所有样本,然后将结果连接到一个数据集中吗?
非常感谢您的帮助!