过度拟合训练数据，但仍在测试数据上进行改进

2024-05-25 • 问答

我的机器学习模型大大适合了训练数据，但在测试数据上仍然表现良好。使用神经网络方法时，每次迭代都会稍微提高测试集的准确性，但会大大提高训练集的准确性（过拟合）。

将spacy与cnn架构配合使用时，该问题得到了很好的展示，我得到了以下结果

ITER    LOSS      P       R       F      TF  
 0      29.305  0.733   0.342   0.466   0.525
 1      10.410  0.811   0.443   0.573   0.650
 2      4.361   0.722   0.548   0.623   0.757
 3      2.265   0.764   0.563   0.648   0.811
 4      1.449   0.748   0.613   0.674   0.877

TF是火车数据上的f1分数。

测试分数不断提高，而与训练集的差异仅增加到模型在训练数据上的第20次迭代中几乎完美表现的水平，而测试精度却从未降低以证明尽早停止。

我尝试了许多正则化选项，包括变化的辍学，权重衰减，L2，但似乎没有一个能够避免记住部分训练数据，并且在测试集上的表现都较差。

这个问题不是spacy和我所遵循的方法所独有，它也发生在scikit和参数较少的模型中。

现有数据集是一个少于2000个示例的小型数据集，这是一个多标签文本分类任务。某些标签的示例少于100个，但在检查过度拟合发生的位置时，所有标签似乎受到的影响均相同。

我想我的主要问题是，我是否应该担心该模型会记住训练数据集，只要它在测试数据上表现良好，还有是否我没有考虑其他问题来解决这个问题我所看到的记忆问题。

过度拟合训练数据，但仍在测试数据上进行改进

bxkanh 回答：过度拟合训练数据，但仍在测试数据上进行改进

大家都在问