使用SVM分类器从第一原理实施AdaBoost

我目前正在尝试使用SVM分类器从最初的原理编码AdaBoost算法。我正在使用moons数据集,我想按顺序训练5个SVM分类器,每次都按照Adaboost更新权重的方式更新错误分类的实例的权重。问题是,当对权重实施正确的初始化和归一化时,我的分类器对于每次迭代都保持相同(而不是更好或更坏)。如果然后将初始化更改为1而不进行归一化,则在顺序训练的分类器似乎有所改善的情况下会得到更好的结果,但是在第5次迭代时,情况会更糟。如果我扩展模型数量,模型错误分类率收敛到111,比最初的49大得多。

我写了以下代码:

from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons

X,y = make_moons(n_samples=500,noise=0.30,random_state=42)
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)

m = len(X_train) 
sample_weights = np.ones(m)/m #initialise at 1 (in book it does say that each weight should be initialised at 1/m)
learning_rate = 1
models = {}
r_js = []
alphas = []

for i in range(5):
    print("iteration {0}".format(i))

    svm_clf = SVC(kernel="rbf",C=0.05,gamma="scale",random_state=42)
    svm_clf = svm_clf.fit(X_train,sample_weight=sample_weights)

    models["SVM_"+str(i)] = svm_clf #storing the SVM trained models
    y_pred = svm_clf.predict(X_train)

    r_j = sample_weights[y_pred != y_train].sum() / sample_weights.sum()
    r_js.append(r_j)

    number = (1-r_j)/r_j 
    alpha_j = learning_rate * np.log10(number)
    alphas.append(alpha_j)
    sample_weights[y_pred != y_train] *= np.exp(alpha_j)

    print(len(sample_weights[y_pred != y_train]))

    sample_weights /= sample_weights.sum() #normalising the sample weights by dividing by the sum of the weights

运行代码,权重确实按预期进行了更改,但是我对5个模型进行了以下错误分类:

结果:

  • 迭代0:193
  • 迭代1:193
  • 迭代2:193
  • 迭代3:193
  • 迭代4:193

然后我更改初始化,并通过使用以下方法将权重设置为1来不“正确”进行初始化:

sample_weights = np.ones(m)

,并且在更新权重后不对权重进行归一化。当我实现此新代码时,会得到以下错误分类率:

结果:

  • 迭代0:49
  • 迭代1:41
  • 迭代2:32
  • 迭代3:36
  • 迭代4:46

随着分类的提高,这似乎正在起作用(直到第5个模型)。

我的问题是:

  • 我正确实现了AdaBoost吗?
  • 带有参数sample_weights的svm_clf.fit()方法是否可以做我打算做的事情?即使用新的权重更新训练数据,还是我必须显式地进行W.X矩阵乘法以使用新的权重更新训练数据?

任何帮助将不胜感激!

欢呼

iCMS 回答:使用SVM分类器从第一原理实施AdaBoost

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/1685463.html

大家都在问