梯度下降学习

泰勒展开式

函数的局部线性近似
当自变量x足够小时，在某个点的很小领域内，$\Delta y$可以表示为$\Delta x$的线性函数。线性函数求导和计算会很方便。
举例来说，$ f(x) = x^3 $
$ \Delta y = f(x_0 + \Delta x) - f(x_0) = (x + \Delta x)^3 - x^3 = 3x^2\Delta x + 3x\Delta x^2 + \Delta x^3 $
当$\Delta x \rightarrow 0 $时, 上式的后两项是$ \Delta x $的高阶无穷小，所以上式可以写成$ \Delta y = 3x^2\Delta $ .即当自变量x足够小的时候，在某点很小的领域内，$\Delta y$可以变成$ \Delta x$的线性函数。
对于一般函数，当在某点很小领域内我们也可以写成类似上面的这种自变量和因变量之间线性关系：
$ \Delta y = f(x_0 + \Delta x )- f(x_0) \approx f’(x_0) * \Delta x $
变换一下形式
$ \Delta y = f(x) - f(x_0) , \Delta x = x- x_0 $ 代入式中可以得到
$ f(x)-f(x_0)=f’(x_0)(x-x_0)$, 移项有$f(x) = f(x_0)+f’(x_0)(x-x_0)$

参数迭代公式
由 $f(\mathbf{x}) \approx f(\mathbf{x_0}) + \bigtriangledown f(\mathbf{x_0})(\mathbf{x} -\mathbf{x_0})$得，我们要使得$ f(\mathbf{x}) $值变小，意味着我们需要满足

$f(\mathbf{x})-f(\mathbf{x_0}) = \bigtriangledown f(\mathbf{x_0})(\mathbf{x-x_0}) <0$

设$ \alpha $ 为下降的步长(标量)，$\mathbf{\nu} $为 $ \mathbf{x} - \mathbf{x_0} $的单位向量，那么就有

$f(\mathbf{x})-f(\mathbf{x_0}) = \alpha \mathbf{\nu} \bigtriangledown f(\mathbf{x_0})$

由上述式子，我们可以看到，

$\mathbf{\nu} \bigtriangledown f(\mathbf{x_0}) <0$

因为$ \mathbf{\nu} $和 $ \bigtriangledown f(\mathbf{x_0}) $都是向量，$ \bigtriangledown f(\mathbf{x_0}) $表示梯度方向，$ \mathbf{\nu} $表示下一步前进的单位向量，如果求得$ \mathbf{\nu} $，则可以得到$ \mathbf{x} = \mathbf{x_0} + \alpha \mathbf{\nu} $
需要保证 $\mathbf{\nu} \bigtriangledown f(\mathbf{x_0})$ 值小于0 同时，要使得$ f(\mathbf{x}) $变化最大，则只有当 $\mathbf{\nu}$ 与 $ \bigtriangledown f(\mathbf{x_0})$ 异号时才满足条件。所以$\mathbf{\nu}$ 与 $ \bigtriangledown f(\mathbf{x_0})$ 方向想法，又因为$\mathbf{\nu}$ 为单位向量，所以我们可以知道，

$\mathbf{\nu} = - \frac{\bigtriangledown f(\mathbf{x_0})}{\left \| \bigtriangledown f(\mathbf{x_0}) \right \|}$

所以综上，代入$\mathbf{x} = \mathbf{x_0} + \alpha \mathbf{\nu} $ 可以得到

$\mathbf{x} = \mathbf{x_0} - \alpha \frac{\bigtriangledown f(\mathbf{x_0})}{\left \| \bigtriangledown f(\mathbf{x_0}) \right \|}$

因为$\left | \bigtriangledown f(\mathbf{x_0}) \right |$是标量，所以原式可以表示为

$\mathbf{x} = \mathbf{x_0} - \alpha\bigtriangledown f(\mathbf{x_0})$

代价公式（损失函数）

将样本的所有的点$ \mathbf{x} $代入到$ h(\mathbf{x}) $ 中与原始值 $ y’ $进行了差方计算，即公式

$costFunction=\frac{1}{2m}\sum_{i=1}^{n} (h(\mathbf{x}^{(i)})-y^{(i)})^2$

该公式我们称为均方误差代价公式

损失函数的参数计算
目标：使得损失函数的值最小，即结果最接近真实值。
做法：使用梯度下降的方式。
为了求损失函数的极小值，就不可避免地需要计算损失函数中每一个权值参数的偏导数，这时前文中提到的“梯度递减”方法就派上用场了。训练线性单元的梯度递减算法示意图如图7-9所示，图中的参数η就是“学习率”，它决定了梯度递减搜索的步长，这个步长“过犹不及”。如果值太小，则收敛慢，如果值太大，则容易越过极值，导致网络震荡，难以收敛。

$\begin{aligned} \frac{\partial L}{\partial w_{i}}= & \frac{\partial}{\partial w_{i}}\frac{1}{2}(Y-f(X))^2=\frac{1}{2}\sum_{d\in D}\frac{\partial}{\partial w_{i}}(y_{d}-y_{d}')^2 \\\\ = & \frac{1}{2}\sum_{d\in D}2(y_{d}-y_{d}')\frac{\partial}{\partial w_{i}}(y_{d}-y_{d}') \\\\ = & \sum_{d\in D}(y_{d}-y_{d}')\frac{\partial}{\partial w_{i}}(y_{d}-\vec{w}\cdot\vec{x}_{d}) \\\\ \end{aligned}$

其中 $x_{id}$，表示训练集合第$d$个样例的输入分量，$ y_{d} $表示第$d$样例的期望输出值，$y_{d}^{,}$表示第$d$样例的实际输出值，这二者的差值就是“损失（loss）”，也称之为误差（error）。
如前文所言，对于特定训练集合，第d个样本的预期输出$y_{d}$和实际输出$y_{d}^{,}$，都是“尘埃落定”的常数，对于求权值分量$w_{i}$的偏导（部分导数）来说，除了作为变量的系数可以保留之外，其他统统都可以“看做浮云化作零”。所以我们可以将最终式子化为：

$\frac{\partial L}{\partial {w_i}} = \sum\limits_{d \in D} {({y_d} - y_{d}^{'})( - x_{id})} = - \sum\limits_{d \in D} {({y_d} - {y_{d}^{'}}){x_{id}}}$

= {w_i} + \eta \sum\limits_{d \in D} {({y_d} - {y_{d}^{‘}}){x_{id}}}
梯度下降的权值更新法则:

${w_i} \leftarrow {w_i}- \eta \frac{\partial L}{\partial {w_i}} = {w_i} + \eta \sum\limits_{d \in D} {({y_d} - {y_{d}^{'}}){x_{id}}}$