是否使用交叉验证时将数据分为2个子集（训练，保持/测试）？

2024-05-25 • 问答

我知道有几种重采样方法可以避免过拟合。在许多教程和书中（即，统计学习第5章重采样方法的介绍），我看到，训练并验证了或 k折叠交叉验证。但是，也有许多教程将两种方法结合在一起。（即，将数据分为3部分：训练，验证，测试或仅在火车子集上对火车使用交叉验证，但仍在火车中进行分割和测试）

这让我很困惑。据我了解，交叉验证是重复的火车验证分裂。这样，您将避免仅一次评估模型的性能，因为偶然可能很容易（或非常困难）预测模型的性能，因此无法为您提供模型实际性能的准确估计。）。通过重复多次训练和验证中拆分数据的过程，并对所有这些拆分平均性能指标，您可以更好地了解模型的实际性能。

那么，为什么要拆分训练和测试子集，然后仅使用交叉验证来训练，而将测试数据完全隐藏在模型中呢？对我来说，这似乎是“错误的”。因为据我所知，您似乎正在重新引入交叉验证首先要解决的问题。还是我错过了什么？

在所有数据和上仅使用 k-fold交叉验证（基本上是训练和测试子集的重复拆分以及）是不是更好？ strong>不参与培训和测试？而不是拆分训练和测试子集，而仅在火车上进行交叉验证？

谢谢