使用SVM分类器从第一原理实施AdaBoost

我目前正在尝试使用SVM分类器从最初的原理编码AdaBoost算法。我正在使用moons数据集，我想按顺序训练5个SVM分类器，每次都按照Adaboost更新权重的方式更新错误分类的实例的权重。问题是，当对权重实施正确的初始化和归一化时，我的分类器对于每次迭代都保持相同（而不是更好或更坏）。如果然后将初始化更改为1而不进行归一化，则在顺序训练的分类器似乎有所改善的情况下会得到更好的结果，但是在第5次迭代时，情况会更糟。如果我扩展模型数量，模型错误分类率收敛到111，比最初的49大得多。

我写了以下代码：

from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons

X,y = make_moons(n_samples=500,noise=0.30,random_state=42)
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)

m = len(X_train) 
sample_weights = np.ones(m)/m #initialise at 1 (in book it does say that each weight should be initialised at 1/m)
learning_rate = 1
models = {}
r_js = []
alphas = []

for i in range(5):
    print("iteration {0}".format(i))

    svm_clf = SVC(kernel="rbf",C=0.05,gamma="scale",random_state=42)
    svm_clf = svm_clf.fit(X_train,sample_weight=sample_weights)

    models["SVM_"+str(i)] = svm_clf #storing the SVM trained models
    y_pred = svm_clf.predict(X_train)

    r_j = sample_weights[y_pred != y_train].sum() / sample_weights.sum()
    r_js.append(r_j)

    number = (1-r_j)/r_j 
    alpha_j = learning_rate * np.log10(number)
    alphas.append(alpha_j)
    sample_weights[y_pred != y_train] *= np.exp(alpha_j)

    print(len(sample_weights[y_pred != y_train]))

    sample_weights /= sample_weights.sum() #normalising the sample weights by dividing by the sum of the weights

运行代码，权重确实按预期进行了更改，但是我对5个模型进行了以下错误分类：

结果：

迭代0：193
迭代1：193
迭代2：193
迭代3：193
迭代4：193

然后我更改初始化，并通过使用以下方法将权重设置为1来不“正确”进行初始化：

sample_weights = np.ones(m)

，并且在更新权重后不对权重进行归一化。当我实现此新代码时，会得到以下错误分类率：

结果：

迭代0：49
迭代1：41
迭代2：32
迭代3：36
迭代4：46

随着分类的提高，这似乎正在起作用（直到第5个模型）。

我的问题是：

我正确实现了AdaBoost吗？
带有参数sample_weights的svm_clf.fit（）方法是否可以做我打算做的事情？即使用新的权重更新训练数据，还是我必须显式地进行W.X矩阵乘法以使用新的权重更新训练数据？

任何帮助将不胜感激！

欢呼

使用SVM分类器从第一原理实施AdaBoost

iCMS 回答：使用SVM分类器从第一原理实施AdaBoost

大家都在问