我正在构建一个增强模型,并尝试通过一组观察权重来为弱学习者提供决策树。我已经看到了两种方法来执行此操作:1)引导样本,以便您更有可能绘制更重的观测值; 2)使用树的损失函数中的权重。在第二篇文章中,我已经看到了两种解决方法,我想知道哪一种是“正确的”。
假设我有一个节点,其中包含四个观测值,y = [0,1]
给定的类和权重w = [.1,.2,.3,.4]
。节点的未加权交叉熵为-.75 log(.75) - .25 log(.25)
。我看到了加权交叉熵的两个候选者:
- 按照建议的here,将每个类别的权重之和乘以
plog(p)
:-(0.1 + 0.2 + 0.3)*0.75*log(0.75) - (0.4)*0.25*log(0.25)
- 按照建议的here,将权重之和用作该类别的概率:
-(.6)log(.6) - .4 log(.4)
。
谁知道哪个更好?谢谢!