是否使用交叉验证时将数据分为2个子集(训练,保持/测试)?

我知道有几种重采样方法可以避免过拟合。在许多教程和书中(即,统计学习第5章重采样方法的介绍),我看到,训练并验证了 k折叠交叉验证。但是,也有许多教程将两种方法结合在一起。(即,将数据分为3部分:训练,验证,测试或仅在火车子集上对火车使用交叉验证,但仍在火车中进行分割和测试)

这让我很困惑。据我了解,交叉验证是重复的火车验证分裂。这样,您将避免仅一次评估模型的性能,因为偶然可能很容易(或非常困难)预测模型的性能,因此无法为您提供模型实际性能的准确估计。 )。通过重复多次训练和验证中拆分数据的过程,并对所有这些拆分平均性能指标,您可以更好地了解模型的实际性能。

那么,为什么要拆分训练和测试子集,然后仅使用交叉验证来训练,而将测试数据完全隐藏在模型中呢?对我来说,这似乎是“错误的”。因为据我所知,您似乎正在重新引入交叉验证首先要解决的问题。还是我错过了什么?

在所有数据和上仅使用 k-fold交叉验证(基本上是训练和测试子集的重复拆分以及)是不是更好? strong>不参与培训和测试?而不是拆分训练和测试子集,而仅在火车上进行交叉验证?

谢谢

xukelongjinhong 回答:是否使用交叉验证时将数据分为2个子集(训练,保持/测试)?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/2857140.html

大家都在问