决定在机器学习回归中为非线性数据选择哪个多项式

我不是ML方面的专家,最近我开始逐一实现ML算法。在成功实现逻辑回归之后,我陷入了一个问题:如何在给定数据集的情况下选择多项式模型?根据输入特征(例如 m 样本数据集的 n 特征),我们有不同的多项式组合,但是有没有办法选择最合适的多项式?我脑子里有两个想法,我不确定它们是否正确。如果科学家使用任何特定的算法或过程,请告知我。谢谢。

  1. 就像我们运行不同的多项式,看看哪个多项式将导致最低的成本? (我感觉这将是一个漫长而痛苦的过程)
  2. 绘制数据并进行可视化,以查看哪种多项式假设最适合(再次,对于多维数据,视觉绘制将非常困难)
liuht444 回答:决定在机器学习回归中为非线性数据选择哪个多项式

正如您所说,在高维空间中无法进行绘图。

您将必须进行一次火车测试拆分(或者可能是交叉验证),并寻找哪些功能可以为您提供关于测试数据的最佳预测。 重要的是,测试数据应保持分离以避免过度拟合,即更复杂的功能始终能够更好地近似您的训练数据,但这并不意味着它们实际上可以泛化。

但是通常,您不必为显式使用多项式特征而烦恼,而是在内核回归中使用其他种类的内核。 在您的情况下,这将是polynomial kernel

一种替代方法是使用鼓励稀疏性的方法来使用所使用的变量。 LASSO regression会导致您损失最小平方的损失,这鼓励了不需要为零的要素的参数。因此,您可以只包含看似有意义的所有组合,最后查看套索,看看哪些参数非零。

本文链接:https://www.f2er.com/2558259.html

大家都在问