您现在的位置是：主页 > news > 本地企业网站建设/百度推广图片尺寸要求

本地企业网站建设/百度推广图片尺寸要求

admin2025/5/7 6:27:11【news】

简介本地企业网站建设,百度推广图片尺寸要求,产品设计的8个方法,网站群建设规范自己简略的， 有参考黄海广前辈 ！黄博士GitHub 第5周九、神经网络的学习(Neural Networks: Learning) 9.1 代价函数引入一些便于讨论的标记方法： 假设神经网络训练样本有mmm个，每个包含一组输入xxx和一组输出信号yyy&#x…

本地企业网站建设,百度推广图片尺寸要求,产品设计的8个方法,网站群建设规范自己简略的， 有参考黄海广前辈 ！黄博士GitHub 第5周九、神经网络的学习(Neural Networks: Learning) 9.1 代价函数引入一些便于讨论的标记方法： 假设神经网络训练样本有mmm个，每个包含一组输入xxx和一组输出信号yyy&#x…

自己简略的，有参考黄海广前辈！黄博士GitHub

第5周

九、神经网络的学习(Neural Networks: Learning)

9.1 代价函数

引入一些便于讨论的标记方法：

假设神经网络训练样本有 $m$ 个，每个包含一组输入 $x$ 和一组输出信号 $y$ ， $L$ 表示神经网络层数， $S_I$ 表示每层的neuron个数( $S_l$ 表示输出层神经元个数)， $S_L$ 代表最后一层中处理单元的个数。

将神经网络的分类定义两种情况：二类分类和多类分类：

二类分类： $SL=1,y=0 or 1S_L=1, y=0\, or\, 1$ 表示哪一类；

$K$ 类分类： $S_L=k, y_i = 1$ 表示分到第 $i$ 类； $(k > 2)$ 。
在这里插入图片描述
回顾逻辑回归中的代价函数为：

$J(θ)=−1m∑i=1m[y(i)log⁡(hθ(x(i)))+(1−y(i))log⁡(1−hθ(x(i)))]+λ2m∑j=1nθj2J\left( \theta \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}+\frac{\lambda }{2m}\sum\limits_{j=1}^{n}{\theta _{j}^{2}}$

逻辑回归中只有一个输出变量，又称标量（scalar），也只有一个因变量 $y$ ，但神经网络中可以有很多输出变量， $hθ(x)h_\theta(x)$ 是一个维度为 $K$ 的向量，并且训练集中的因变量也是同样维度的一个向量，因此代价函数会比逻辑回归更加复杂一些，为：
在这里插入图片描述

这个复杂的代价函数背后的思想还是一样的，希望通过代价函数来观察算法预测的结果与真实情况的误差有多大，不同的是，对于每行特征，我们都会给出 $K $ 个预测，可以利用循环，对每一行特征都预测 $K $ 个不同结果，然后在利用循环在 $K $ 个预测中选择可能性最高的一个，将其与 $y $ 中的实际数据进行比较。

正则化的那一项只是排除了每一层 $θ0\theta_0$ 后，每一层的 $θ\theta$ 矩阵的和。最里层的循环 $j$ 循环所有的行（由 $s_{l+1}$ 层的激活单元数决定），循环 $i$ 则循环所有的列，由该层（ $s_l$ 层）的激活单元数所决定。即： $hθ(x)h_\theta(x)$ 与真实值之间的距离为每个样本-每个类输出的加和，对参数进行regularization的bias项处理所有参数的平方和。

9.2 反向传播算法

为了计算代价函数的偏导数 $∂∂Θij(l)J(Θ)\frac{\partial}{\partial\Theta^{(l)}_{ij}}J\left(\Theta\right)$ ，需要采用反向传播算法，首先计算最后一层的误差，然后再一层一层反向求出各层的误差，直到倒数第二层。
在这里插入图片描述

假设训练集只有一个样本 $(x(1),y(1))\left({x}^{(1)},{y}^{(1)}\right)$ ，神经网络是一个四层的神经网络，其中 $K=4，S_{L}=4，L=4$ ：

前向传播算法：
在这里插入图片描述

下面的公式推导过程见：https://blog.csdn.net/qq_29762941/article/details/80343185

我们从最后一层误差开始计算，误差是激活单元的预测（ ${a^{(4)}}$ ）与实际值（ $y^k$ ）之间的误差，（ $k = 1 : k$ ）。

用 $δ\delta$ 来表示误差，则： $δ(4)=a(4)−y\delta^{(4)}=a^{(4)}-y$

利用这个误差值来计算前一层的误差： $δ(3)=(Θ(3))Tδ(4)∗g′(z(3))\delta^{(3)}=\left({\Theta^{(3)}}\right)^{T}\delta^{(4)}\ast g'\left(z^{(3)}\right)$

其中 $g′(z(3))g'(z^{(3)})$ 是 $S$ 形函数的导数， $g′(z(3))=a(3)∗(1−a(3))g'(z^{(3)})=a^{(3)}\ast(1-a^{(3)})$ 。而 $(θ(3))Tδ(4)(θ^{(3)})^{T}\delta^{(4)}$ 则是权重导致的误差的和。下一步是继续计算第二层的误差：

$δ(2)=(Θ(2))Tδ(3)∗g′(z(2))\delta^{(2)}=(\Theta^{(2)})^{T}\delta^{(3)}\ast g'(z^{(2)})$

第一层是输入变量，不存在误差。有了所有误差的表达式后，便可以计算代价函数的偏导数了，假设 $λ = 0$ ，即我们不做任何正则化处理时有：

$∂∂Θij(l)J(Θ)=aj(l)δil+1\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)=a_{j}^{(l)} \delta_{i}^{l+1}$

重要的是清楚地知道上面式子中上下标的含义：

$l$ 代表目前所计算的是第几层。

$j$ 代表目前计算层中的激活单元的下标，也将是下一层的第 $j$ 个输入变量的下标。

$i$ 代表下一层中误差单元的下标，是受到权重矩阵中第 $i$ 行影响的下一层中的误差单元的下标。

如果考虑正则化处理，并且训练集是一个特征矩阵而非向量。在上面的特殊情况中，需要计算每一层的误差单元来计算代价函数的偏导数。更为一般的情况中，同样需要计算每一层的误差单元，但是我们需要为整个训练集计算误差单元，此时的误差单元也是一个矩阵，我们用 $Δij(l)\Delta^{(l)}_{ij}$ 来表示这个误差矩阵。第 $l$ 层的第 $i$ 个激活单元受到第 $j$ 个参数影响而导致的误差。

算法表示为：
在这里插入图片描述
即首先用正向传播方法计算出每一层的激活单元，利用训练集的结果与神经网络预测的结果求出最后一层的误差，然后利用该误差运用反向传播法计算出直至第二层的所有误差。

在求出了 $Δij(l)\Delta_{ij}^{(l)}$ 之后，我们便可以计算代价函数的偏导数了，计算方法如下：

$Dij(l):=1mΔij(l)+λΘij(l)D_{ij}^{(l)} :=\frac{1}{m}\Delta_{ij}^{(l)}+\lambda\Theta_{ij}^{(l)}$ $if j≠0{if}\; j \neq 0$

$Dij(l):=1mΔij(l)D_{ij}^{(l)} :=\frac{1}{m}\Delta_{ij}^{(l)}$ $if j=0{if}\; j = 0$

9.3 反向传播算法的直观理解

反向传播算法做的是：
在这里插入图片描述

感悟：上图中的 $δj(l)="error"ofcostforaj(l)(unitjinlayerl)\delta^{(l)}_{j}="error" \ of cost \ for \ a^{(l)}_{j} \ (unit \ j \ in \ layer \ l)$ 理解如下：

$δj(l)\delta^{(l)}_{j}$ 相当于是第 $l$ 层的第 $j$ 单元中得到的激活项的“误差”，即”正确“的 $aj(l)a^{(l)}_{j}$ 与计算得到的 $aj(l)a^{(l)}_{j}$ 的差。

而 $aj(l)=g(z(l))a^{(l)}_{j}=g(z^{(l)})$ ，（g为sigmoid函数）。我们可以想象 $δj(l)\delta^{(l)}_{j}$ 为函数求导时迈出的那一丁点微分，所以更准确的说 $δj(l)=∂∂zj(l)cost(i)\delta^{(l)}_{j}=\frac{\partial}{\partial z^{(l)}_{j}}cost(i)$

9.4 实现注意：展开参数

介绍一个细节的实现过程，怎样把参数从矩阵展开成向量，以便在高级最优化步骤中使用：

在这里插入图片描述

9.5 梯度检验

对一个复杂的模型（例如神经网络）使用梯度下降算法时，可能会存在一些不容易察觉的错误，虽然代价在不断减小，但最终的结果可能并不是最优解。

为了避免这样的问题，可以采取一种叫做梯度的数值检验（Numerical Gradient Checking）方法。思想是通过估计梯度值来检验计算的导数值是否真的符合要求。

梯度估计采用的方法是在代价函数上沿着切线的方向选择两个非常近的点然后计算两个点的平均值用以估计梯度。即对于某个特定的 $θ\theta$ ，我们计算出在 $θ\theta$ - $ε\varepsilon$ 处和 $θ\theta$ + $ε\varepsilon$ 的代价值（ $ε\varepsilon$ 是一个非常小的值，通常选取 0.001），然后求两个代价的平均，用以估计 $θ\theta$ 处的代价值。

在这里插入图片描述

当 $θ\theta$ 是一个向量时，则需要对偏导数进行检验。因为代价函数的偏导数检验只针对一个参数的改变进行检验，下面是一个只针对 $θ1\theta_1$ 进行检验的示例：

$∂∂θ1=J(θ1+ε1,θ2,θ3...θn)−J(θ1−ε1,θ2,θ3...θn)2ε\frac{\partial}{\partial\theta_1}=\frac{J\left(\theta_1+\varepsilon_1,\theta_2,\theta_3...\theta_n \right)-J \left( \theta_1-\varepsilon_1,\theta_2,\theta_3...\theta_n \right)}{2\varepsilon}$

最后还需要对通过反向传播方法计算出的偏导数进行检验。

根据上面的算法，计算出的偏导数存储在矩阵 $D_{ij}^{(l)}$ 中。检验时，将该矩阵展开成为向量，同时我们也将 $θ\theta$ 矩阵展开为向量，针对每一个 $θ\theta$ 都计算近似的梯度值，将这些值存储于一个近似梯度矩阵中，最终将得出的这个矩阵同 $D_{ij}^{(l)}$ 进行比较。