1 分类与表达式
1.1 分类
例子:
Email:垃圾(span)邮件/非垃圾(not span)邮件
在线交易:是/否欺诈(Fraudulent)
肿瘤:恶性/良性
@H_404_17@ y∈{0,1}:{Negative,Position}@H_404_17@ →y∈{0,1,2,3,⋯}:多类
逻辑回归
@H_404_17@
0≤hθ(x)≤1
离散变量:
@H_404_17@
{0,1}
1.2 假设函数的表达式
@H_404_17@ hθ(x) 为 @H_404_17@ y=1 的概率值,当取输入为 @H_404_17@ x 时,
@H_404_17@
→hθ(x)=p{y=1|x;θ}
@H_404_17@
s.t.p{y=0|x;θ}+p{y=1|x;θ}=1
1.3 决策边界
@H_404_17@ hθ(x)=g(θ0+θ1x1+θ2x2)
假定 @H_404_17@ y=1 ,当 @H_404_17@ hθ(x)≥0.5 (阈值)
则 @H_404_17@ g(θTx)≥0.5 (阈值),即 @H_404_17@ θTx≥0 , @H_404_17@ θ@H_359_1301@0+θ1x1+θ2x2≥0
1.4 非线性决策边界
训练集 @H_404_17@ → (拟合) @H_404_17@ → 边界
2 逻辑回归模型
2.1 代价函数
@H_404_17@
J(θ)=1m∑i=1mCost(hθ(x(i)),y(i))
其中,
其中 @H_404_17@ J(θ) 为 凸函数。
2.2 简单的代价函数与梯度下降法
@H_404_17@
Cost(hθ(x),y)=−ylog(hθ(x))−(1−y)log(1−hθ(x))
@H_404_17@
→J(θ)=−1m[∑i=1@H_404_2769@my(i)log(hθ(x(i)))+(1−y(i))log(1−@H_502_2956@hθ(x(i)@H_79_3014@))]
@H_404_17@ Objection.→minθJ(θ)
梯度下降法
这一迭代形式与“ 线性回归”中的梯度下降法相同,但是“ @H_404_17@ h(x(i)) ”是不同的。其中, 特征缩放(归一化)一样适用。
2.3 高级优化方法
用于求解 @H_404_17@ min@H_563_3502@J(θ) ,收敛速度更快。
优化算法
- 梯度下降法(Gradient descent)
- 共轭梯度法(Conjugate gradient)
- 变尺度法(BFGS)
- 线性变尺度法(L-BFGS)
其中 2,3,4 优化算法无需学习参数 @H_404_17@ @H_403_3552@α ,且效率比梯度下降法更好。
3 多类别分类
方法: 一对多算法(One-vs-all)
例子:
Email foldering/tagging: work
@H_404_17@
(y=1)
,friends
@H_404_17@
(y=2)
,family
@H_404_17@
(y=3)
,hobby
@H_404_17@
(y=4)
@H_404_17@ maxih(i)θ(x)
当 @H_404_17@ y=1,2,3,…,n ,令 @H_404_17@ y=i 为 @H_404_17@ 1 ,其他为 @H_404_17@ 0 ,采用逻辑回归方法,做 @H_404_17@ n 次分类。
4 解决过拟合问题
4.1 过拟合
@H_404_17@ @H_404_3948@J(θ)≈0→0
解决方法
诊断,调试
- 减少特征数量(舍弃特征)
- 正则化(保留所有特征)
@H_264_4036@ @H_404_17@ @H_454_4038@@H_688_4039@@H_986_4040@@H_313_4041@@H_423_4042@@H_562_4043@@H_976_4044@@H_368_4047@hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4
希望
@H_404_17@
θ3
,
@H_404_17@
θ4
尽量小,则
正则化
对某些参数增加惩罚项,其中针对所有参数的为
@H_404_17@ J(θ)=12m[∑i=1m(hθ(x(i))−y(i))@H_177_5025@2+λ∑j=1nθ2j]
其中, @H_404_17@ λ 为正则化参数, @H_404_17@ λ 过大,会使得 @H_404_17@ θj→0 ,以至于欠拟合。
4.3 正则化的线性回归
@H_404_17@ J(θ)=12m[∑i=1m(hθ(x(i))−y@H_378_5403@@H_258_5404@(i))2+λ∑j=1nθ2j]
@H_404_17@ minθJ(θ)
梯度下降法
正规方程
当 @H_404_17@ (XTX)−1 不可逆时,可将其转化为可逆矩阵。
4.4 正则化逻辑回归
@H_404_17@ J(θ)=[−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))]+@H_502_7235@λ2m∑j=1nθ2j
@H_404_17@ minθJ(θ)
采用梯度下降法等优化算法求解。