如何在决策树中正确加权观测值

2024-05-19 • 问答

我正在构建一个增强模型，并尝试通过一组观察权重来为弱学习者提供决策树。我已经看到了两种方法来执行此操作：1）引导样本，以便您更有可能绘制更重的观测值； 2）使用树的损失函数中的权重。在第二篇文章中，我已经看到了两种解决方法，我想知道哪一种是“正确的”。

假设我有一个节点，其中包含四个观测值，y = [0,1]给定的类和权重w = [.1,.2,.3,.4]。节点的未加权交叉熵为-.75 log(.75) - .25 log(.25)。我看到了加权交叉熵的两个候选者：

按照建议的here，将每个类别的权重之和乘以plog(p)：-(0.1 + 0.2 + 0.3)*0.75*log(0.75) - (0.4)*0.25*log(0.25)
按照建议的here，将权重之和用作该类别的概率：-(.6)log(.6) - .4 log(.4)。

谁知道哪个更好？谢谢！