我可以/应该将过去的标签用作ML预测中的特征吗？

2024-06-02 • 问答

问题：将标签的过去用作特征是否正常/通常/专业？ 尽管这是一个基本问题，但我找不到任何可靠的结果。

我对ml很陌生。我尝试预测某个月的可用数据，即每月的可用时间，因此是一个时间序列，但是我没有将其用作时间序列。

这是一个分类模型，我可以预测该时间序列中所选月份的标签列。所选标签月份之前的前几个月现在是问题的重点。

我不想仅仅因为过去几个月成为“标签”而放弃。我知道标签的过去，为什么不也将其视为功能？

将标签时间序列的过去标签添加到要素中时，我的预测当然要好得多。这是合乎逻辑的，因为标签通常在一个月到另一个月之间变化不大，因此如果将标签的过去作为数据来提供，则可以很好地预测。不使用这样的“过去标签”作为特征会很奇怪，因为任何简单的时间序列回归都将比ml模型更好。

示例：假设我预测了一个人的智商测试结果，并且使用她过去的智商测试结果作为其他正常的“非标签”特征（如年龄，教育程度）的特征。除了正常的“非标签”功能外，我还使用一年中“过去的标签” 的前11个月作为功能。我预计第12个月的标签。如果将标签的过去添加到功能中，则预测第12个月的标签会更好-显然。这是因为历史标签（如果有的话）当然比年龄和教育程度等普通栏更好地指示了最终结果。

将过去的标签列作为要素包括在内是完全有可能的，也是一种很好的做法，尽管这取决于您的问题：您是否想用 other 功能（故意），还是您想考虑 other 和您的过去标签列来预测下一个标签，例如在不使用时序的情况下向模型添加时序字符？

时间顺序甚至都不重要，只要在进入预测集时所有这些月度列在同一时间一致地移动。该模型并不关心是否只是同一列类型的一月和二月，对于该模型，每个功能都是隔离的。

示例：您可以在各种功能上完美运行随机森林模型，包括它们过去的标签列，它们一次又一次地重复相同的列类型，仅代表不同的月份。在ml模型中，任何月份的列都可以作为独立的新功能处理，唯一的重要性是将所有这些月份的列都移到完全相同的时间段，以达到一致的预测集。换句话说，很明显，当您从训练集1月-6月到预测集2月-7月时，应该避免将1月替换为3月，而必须将2月替换为1月。

我可以/应该将过去的标签用作ML预测中的特征吗？

chang661537 回答：我可以/应该将过去的标签用作ML预测中的特征吗？

大家都在问