1 分类与表达式

1.1 分类

例子：

Email：垃圾（span）邮件/非垃圾（not span）邮件
在线交易：是/否欺诈（Fraudulent）
肿瘤：恶性/良性

$@H_404_17@ y∈{0,1}:{Negative,Position}$ $y \in \left\{ {0,1} \right\}:\left\{ {{\rm{Negative}},{\rm{Position}}} \right\}$ $@H_404_17@ →y∈{0,1,2,3,⋯}:多类$ $\to y \in \left\{ {0,1,2,3,\cdots } \right\}: 多类$

逻辑回归

$0 \le {h_\theta }\left( x \right) \le 1$
离散变量： $\{0,1\}$

1.2 假设函数的表达式

@H_404_17@ @H_336_301 @ h θ (x) = g (θ T x) g (z) = @H_9_404 @ 1 1 + e - z ⎫ ⎭ ⎬ ⎪ ⎪ ⎪ ⎪ \Rightarrow h θ (x) = 1 1 + e - θ T x

$\left. \begin{array}{ccccc} {h_\theta }\left( x \right) = g\left( {{\theta ^T}x} \right)\\ g\left( z \right) = \frac{1}{{1 + {e^{ - z}}}} \end{array} \right\} \Rightarrow {h_\theta }\left( x \right) = \frac{1}{{1 + {e^{ - {\theta ^T}x}}}}$

@H_404_17@ hθ(x) $h_θ(x)$ 为

@H_404_17@ y=1 $y = 1$ 的概率值，当取输入为

@H_404_17@ x $x$ 时，

$\to {h_\theta }\left( x \right) = p\left\{ {y = 1|x;\theta } \right\}$
${s}{.t}{.}~~ p\left\{ {y = 0|x;\theta } \right\} + p\left\{ {y = 1|x;\theta } \right\} = 1$

1.3 决策边界

${h_\theta }\left( x \right) = g\left( {{\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2}} \right)$

假定 $y = 1$ ，当 $h_θ(x) ≥ 0.5$ （阈值）

则 $g(θ^Tx) ≥ 0.5$ （阈值），即 $θ^Tx ≥ 0$ ， $θ_0 + θ_1x_1 + θ_2x_2 ≥ 0$

1.4 非线性决策边界

@H_404_17@ h θ (x) = g (θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 21 + θ 4 x 22) @H_301_1676@ θ 0 = θ 1 = θ 3 = - 1 θ 2 = 0 θ 4 = 1 ⎫ ⎭ ⎬ ⎪ ⎪ \Rightarrow - 1 + x 21 + x 22 = 0

$\begin{array}{ccccc} {h_\theta }\left( x \right) = g\left( {{\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + {\theta _3}x_1^2 + {\theta _4}x_2^2} \right)\\ \left. \begin{array}{ccccc} {\theta _0} = & - 1\\ {\theta _1} = & {\theta _2} = 0\\ {\theta _3} = & {\theta _4} = 1 \end{array} \right\} \Rightarrow - 1 + x_1^2 + x_2^2 = 0 \end{array}$
训练集

@H_404_17@ → $\to$ （拟合）

@H_404_17@ → $\to$ 边界

2 逻辑回归模型

2.1 代价函数

$J\left( \theta \right) = \frac{1}{m}\sum\limits_{i = 1}^m {Cost\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right),{y^{\left( i \right)}}} \right)}$
其中，

@H_404_17@ Cost(hθ(x),y)={@H_868_2301@−log(hθ(x)),−log(1−hθ(x)),y=1y=0

$Cost\left( {{h_\theta }\left( x \right),y} \right) = \left\{ \begin{array}{ccccc} - \log \left( {{h_\theta }\left( x \right)} \right),& y = 1\\ - \log \left( {1 - {h_\theta }\left( x \right)} \right),& y = 0 \end{array} \right.$
其中

@H_404_17@ J(θ) $J(θ)$ 为 凸函数。

2.2 简单的代价函数与梯度下降法

$Cost\left( {{h_\theta }\left( x \right),y} \right) = - y\log \left( {{h_\theta }\left( x \right)} \right) - \left( {1 - y} \right)\log \left( {1 - {h_\theta }\left( x \right)} \right)$
$\to J\left( \theta \right) = - \frac{1}{m}\left[ {\sum\limits_{i = 1}^m {{y^{\left( i \right)}}\log \left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right) + \left( {1 - {y^{\left( i \right)}}} \right)\log \left( {1 - {h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right)} } \right]$

$Objection. \to \mathop {\min }\limits_\theta J\left( \theta \right)$

梯度下降法

@H_404_17@ Repeat{θj=θj−α1m∑i=1m(hθ(@H_83_3301@x(i))−y(i))x(i)@H_905_3403@j}

${\rm{Repeat}}\left\{ {{\theta _j} = {\theta _j} - \alpha \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)x_j^{\left( i \right)}} } \right\}$
这一迭代形式与“ 线性回归”中的梯度下降法相同，但是“

@H_404_17@ h(x(i)) $h(x^{(i)})$ ”是不同的。其中， 特征缩放（归一化）一样适用。

2.3 高级优化方法

用于求解 $\min ~~ J(θ)$ ，收敛速度更快。

优化算法

梯度下降法（Gradient descent）
共轭梯度法（Conjugate gradient）
变尺度法（BFGS）
线性变尺度法（L-BFGS）

其中 2，3，4 优化算法无需学习参数 $α$ ，且效率比梯度下降法更好。

3 多类别分类

方法：一对多算法（One-vs-all）
例子：
Email foldering/tagging: work $(y=1)$ ,friends $(y=2)$ ,family $(y=3)$ ,hobby $(y=4)$

$\mathop {\max }\limits_i h_\theta ^{\left( i \right)}\left( x \right)$

当 $y = {1,…,n}$ ，令 $y = i$ 为 $1$ ，其他为 $0$ ，采用逻辑回归方法，做 $n$ 次分类。

4 解决过拟合问题

4.1 过拟合

$\begin{array}{ccccc} J\left( \theta \right) & \approx 0\ \to 0 \end{array}$

解决方法

诊断，调试

减少特征数量（舍弃特征）
正则化（保留所有特征）

@H_868_4031@4.2 代价函数

@H_264_4036@ @H_404_17@ @H_454_4038@@H_688_4039@@H_986_4040@@H_313_4041@@H_423_4042@@H_562_4043@@H_976_4044@@H_368_4047@hθ(x)=θ0+θ1x1+θ2x2+θ3x3+ ${h_\theta }\left( x \right) = {\theta _0} + {\theta _1}{x^1} + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}$

希望 $θ_3$ , $θ_4$ 尽量小，则

@H_404_17@ min θ 1 2 m \sum i = 1 m (@H_404_4461@ h θ (x @H_520_4 502 @(i)) - y (i)) 2 + 1000 θ 3 + 1000 θ 4      @H_301_4665@                惩 罚 项 (实 例)

$\mathop {\min }\limits_\theta \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}} \underbrace { + 1000{\theta _3} + 1000{\theta _4}}_{惩罚项(实例)}$

正则化

对某些参数增加惩罚项，其中针对所有参数的为

$J\left( \theta \right) = \frac{1}{{2m}}\left[ {\sum\limits_{i = 1}^m {{{\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)}^2}} + \lambda \sum\limits_{j = 1}^n {\theta _j^2} } \right]$

其中， $λ$ 为正则化参数， $λ$ 过大，会使得 $θ_j \to 0$ ，以至于欠拟合。

4.3 正则化的线性回归

$\mathop {\min }\limits_\theta J\left( \theta \right)$

梯度下降法

@H_404_17@ θ 0 = θ 0 - α 1 m \sum i = 1 m (h θ (x @H_502_5748@(i)) - y (i)) x (i) 0 θ j = θ j - α [1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j + λ m θ j] j = 1, 2, 3, \dots, n

$\begin{array}{ccccc} {\theta _0} = {\theta _0} - \alpha \frac{1}{m}\sum\limits_{i = 1}^m {\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)x_0^{\left( i \right)}} \\ {\theta _j} = {\theta _j} - \alpha \left[ {\frac{1}{m}\sum\limits_{i = 1}^m {\left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right) - {y^{\left( i \right)}}} \right)x_j^{\left( i \right)}} + \frac{\lambda }{m}{\theta _j}} \right]\\ j = 1,\cdots,n \end{array}$

正规方程

@H_404_17@ θ = (X T X) - 1 X T y \to θ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ X T X - λ @H_859_6 403 @@H_195_6 404 @ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ 0 @H_951_6 502 @ 1 ⋱ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ (n + 1) ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ - 1 X T y

$\theta = {\left( {{X^T}X} \right)^{ - 1}}{X^T}y \to \theta = {\left( {{X^T}X - \lambda {{\left[ {\begin{array}{*{20}{c}} 0&{}&{}&{}\\ {}&1&{}&{}\\ {}&{}& \ddots &{}\\ {}&{}&{}&1 \end{array}} \right]}_{\left( {n + 1} \right)}}} \right)^{ - 1}}{X^T}y$

当 $(X^TX)^{-1}$ 不可逆时，可将其转化为可逆矩阵。

4.4 正则化逻辑回归

$J\left( \theta \right) = \left[ { - \frac{1}{m}\sum\limits_{i = 1}^m {{y^{\left( i \right)}}\log \left( {{h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right) + \left( {1 - {y^{\left( i \right)}}} \right)\log \left( {1 - {h_\theta }\left( {{x^{\left( i \right)}}} \right)} \right)} } \right] + \frac{\lambda }{{2m}}\sum\limits_{j = 1}^n {\theta _j^2}$

$\mathop {\min }\limits_\theta J\left( \theta \right)$

采用梯度下降法等优化算法求解。

逻辑回归机器学习基础(2)

1 分类与表达式

1.1 分类

逻辑回归

1.2 假设函数的表达式

1.3 决策边界

1.4 非线性决策边界

2 逻辑回归模型

2.1 代价函数

2.2 简单的代价函数与梯度下降法

梯度下降法

2.3 高级优化方法

优化算法

3 多类别分类

4 解决过拟合问题

4.1 过拟合

解决方法

正则化

4.3 正则化的线性回归

梯度下降法

正规方程

4.4 正则化逻辑回归

猜你在找的正则表达式相关文章

逻辑回归 机器学习基础(2)

1 分类与表达式

1.1 分类

逻辑回归

1.2 假设函数的表达式

1.3 决策边界

1.4 非线性决策边界

2 逻辑回归模型

2.1 代价函数

2.2 简单的代价函数与梯度下降法

梯度下降法

2.3 高级优化方法

优化算法

3 多类别分类

4 解决过拟合问题

4.1 过拟合

解决方法

正则化

4.3 正则化的线性回归

梯度下降法

正规方程

4.4 正则化逻辑回归

猜你在找的正则表达式相关文章

逻辑回归机器学习基础(2)