决定在机器学习回归中为非线性数据选择哪个多项式

2024-05-19 • 问答

我不是ML方面的专家，最近我开始逐一实现ML算法。在成功实现逻辑回归之后，我陷入了一个问题：如何在给定数据集的情况下选择多项式模型？根据输入特征（例如 m 样本数据集的 n 特征），我们有不同的多项式组合，但是有没有办法选择最合适的多项式？我脑子里有两个想法，我不确定它们是否正确。如果科学家使用任何特定的算法或过程，请告知我。谢谢。

就像我们运行不同的多项式，看看哪个多项式将导致最低的成本？（我感觉这将是一个漫长而痛苦的过程）
绘制数据并进行可视化，以查看哪种多项式假设最适合（再次，对于多维数据，视觉绘制将非常困难）

正如您所说，在高维空间中无法进行绘图。

您将必须进行一次火车测试拆分（或者可能是交叉验证），并寻找哪些功能可以为您提供关于测试数据的最佳预测。重要的是，测试数据应保持分离以避免过度拟合，即更复杂的功能始终能够更好地近似您的训练数据，但这并不意味着它们实际上可以泛化。

但是通常，您不必为显式使用多项式特征而烦恼，而是在内核回归中使用其他种类的内核。在您的情况下，这将是polynomial kernel

一种替代方法是使用鼓励稀疏性的方法来使用所使用的变量。 LASSO regression会导致您损失最小平方的损失，这鼓励了不需要为零的要素的参数。因此，您可以只包含看似有意义的所有组合，最后查看套索，看看哪些参数非零。

决定在机器学习回归中为非线性数据选择哪个多项式

liuht444 回答：决定在机器学习回归中为非线性数据选择哪个多项式

大家都在问