神经网络和误差逆传播算法（BP）

　　本人弱学校的CS 渣硕一枚，在找工作的时候，发现好多公司都对深度学习有要求，尤其是CNN和RNN，好吧，啥也不说了，拿过来好好看看。以前看习西瓜书的时候神经网络这块就是一个看的很模糊的块，包括台大的视频，上边有AutoEncoder，感觉很乱，所以总和了各种博客，各路大神的知识，总结如果，如有问题，欢迎指出。

1 人工神经网络

1.1 神经元

神经网络由大量的神经元相互连接而成。每个神经元接受线性组合的输入后，最开始只是简单的线性加权，后来给每个神经元加上了非线性的激活函数，从而进行非线性变换后输出。每两个神经元之间的连接代表加权值，称之为权重（weight）。不同的权重和激活函数，则会导致神经网络不同的输出。

举个手写识别的例子，给定一个未知数字，让神经网络识别是什么数字。此时的神经网络的输入由一组被输入图像的像素所激活的输入神经元所定义。在通过非线性激活函数进行非线性变换后，神经元被激活然后被传递到其他神经元。重复这一过程，直到最后一个输出神经元被激活。从而识别当前数字是什么字。

神经网络的每个神经元如下

神经网络和误差逆传播算法（BP）-风君雪科技博客

基本wx + b的形式，其中

神经网络和误差逆传播算法（BP）-风君雪科技博客、表示输入向量

神经网络和误差逆传播算法（BP）-风君雪科技博客、为权重，几个输入则意味着有几个权重，即每个输入都被赋予一个权重

b为偏置bias

g(z) 为激活函数

a 为输出

如果只是上面这样一说，估计以前没接触过的十有八九又必定迷糊了。事实上，上述简单模型可以追溯到20世纪50/60年代的感知器，可以把感知器理解为一个根据不同因素、以及各个因素的重要性程度而做决策的模型。

举个例子，这周末北京有一草莓音乐节，那去不去呢？决定你是否去有二个因素，这二个因素可以对应二个输入，分别用x1、x2表示。此外，这二个因素对做决策的影响程度不一样，各自的影响程度用权重w1、w2表示。一般来说，音乐节的演唱嘉宾会非常影响你去不去，唱得好的前提下即便没人陪同都可忍受，但如果唱得不好还不如你上台唱呢。所以，我们可以如下表示：

神经网络和误差逆传播算法（BP）-风君雪科技博客：是否有喜欢的演唱嘉宾。 = 1 你喜欢这些嘉宾， = 0 你不喜欢这些嘉宾。嘉宾因素的权重 = 7

神经网络和误差逆传播算法（BP）-风君雪科技博客：是否有人陪你同去。 = 1 有人陪你同去， = 0 没人陪你同去。是否有人陪同的权重 = 3。

这样，咱们的决策模型便建立起来了：g(z) = g( 神经网络和误差逆传播算法（BP）-风君雪科技博客 * + * + b )，g表示激活函数，这里的b可以理解成为更好达到目标而做调整的偏置项。

一开始为了简单，人们把激活函数定义成一个线性函数，即对于结果做一个线性变化，比如一个简单的线性激活函数是g(z) = z，输出都是输入的线性变换。后来实际应用中发现，线性激活函数太过局限，于是人们引入了非线性激活函数。

1.2 激活函数

常用的非线性激活函数有sigmoid、tanh、relu等等，前两者sigmoid/tanh比较常见于全连接层，后者relu常见于卷积层。这里先简要介绍下最基础的sigmoid函数（btw，在本博客中SVM那篇文章开头有提过）。

sigmoid的函数表达式如下

神经网络和误差逆传播算法（BP）-风君雪科技博客

其中z是一个线性组合，比如z可以等于：b + 神经网络和误差逆传播算法（BP）-风君雪科技博客 * + *。通过代入很大的正数或很小的负数到g(z)函数中可知，其结果趋近于0或1。

因此，sigmoid函数g(z)的图形表示如下（横轴表示定义域z，纵轴表示值域g(z) ）：

神经网络和误差逆传播算法（BP）-风君雪科技博客

也就是说，sigmoid函数的功能是相当于把一个实数压缩至0到1之间。当z是非常大的正数时，g(z)会趋近于1，而z是非常小的负数时，则g(z)会趋近于0。

压缩至0到1有何用处呢？用处是这样一来便可以把激活函数看作一种“分类的概率”，比如激活函数的输出为0.9的话便可以解释为90%的概率为正样本。

举个例子，如下图（图引自Stanford机器学习公开课）

神经网络和误差逆传播算法（BP）-风君雪科技博客

z = b + 神经网络和误差逆传播算法（BP）-风君雪科技博客 * + *，其中b为偏置项假定取-30，、都取为20

神经网络和误差逆传播算法（BP）-风君雪科技博客

如果神经网络和误差逆传播算法（BP）-风君雪科技博客 = 0 = 0，则z = -30，g(z) = 1/( 1 + e^-z )趋近于0。此外，从上图sigmoid函数的图形上也可以看出，当z=-30的时候，g(z)的值趋近于0

如果神经网络和误差逆传播算法（BP）-风君雪科技博客 = 0 = 1，或 =1 = 0，则z = b + * + * = -30 + 20 = -10，同样，g(z)的值趋近于0

如果神经网络和误差逆传播算法（BP）-风君雪科技博客 = 1 = 1，则z = b + * + * = -30 + 20*1 + 20*1 = 10，此时，g(z)趋近于1。

换言之，只有神经网络和误差逆传播算法（BP）-风君雪科技博客和都取1的时候，g(z)→1，判定为正样本；或取0的时候，g(z)→0，判定为负样本，如此达到分类的目的。

1.3 神经网络

将下图的这种单个神经元

神经网络和误差逆传播算法（BP）-风君雪科技博客

组织在一起，便形成了神经网络。下图便是一个三层神经网络结构

神经网络和误差逆传播算法（BP）-风君雪科技博客

上图中最左边的原始输入信息称之为输入层，最右边的神经元称之为输出层（上图中输出层只有一个神经元），中间的叫隐藏层。

啥叫输入层、输出层、隐藏层呢？

输入层（Input layer），众多神经元（Neuron）接受大量非线形输入讯息。输入的讯息称为输入向量。

输出层（Output layer），讯息在神经元链接中传输、分析、权衡，形成输出结果。输出的讯息称为输出向量。

隐藏层（Hidden layer），简称“隐层”，是输入层和输出层之间众多神经元和链接组成的各个层面。如果有多个隐藏层，则意味着多个激活函数。

同时，每一层都可能由单个或多个神经元组成，每一层的输出将会作为下一层的输入数据。比如下图中间隐藏层来说，隐藏层的3个神经元a1、a2、a3皆各自接受来自多个不同权重的输入（因为有x1、x2、x3这三个输入，所以a1 a2 a3都会接受x1 x2 x3各自分别赋予的权重，即几个输入则几个权重），接着，a1、a2、a3又在自身各自不同权重的影响下成为的输出层的输入，最终由输出层输出最终结果。

神经网络和误差逆传播算法（BP）-风君雪科技博客

上图（图引自Stanford机器学习公开课）中

神经网络和误差逆传播算法（BP）-风君雪科技博客表示第j层第i个单元的激活函数/神经元
表示从第j层映射到第j+1层的控制函数的权重矩阵

此外，输入层和隐藏层都存在一个偏置（bias unit)，所以上图中也增加了偏置项：x0、a0。针对上图，有如下公式

此外，上文中讲的都是一层隐藏层，但实际中也有多层隐藏层的，即输入层和输出层中间夹着数层隐藏层，层和层之间是全连接的结构，同一层的神经元之间没有连接。

神经网络和误差逆传播算法（BP）-风君雪科技博客

2 误差逆传播算法（BP）

由上面可以得知：神经网络的学习主要蕴含在权重和阈值中，多层网络使用上面简单感知机的权重调整规则显然不够用了，BP神经网络算法即误差逆传播算法（error BackPropagation）正是为学习多层前馈神经网络而设计，BP神经网络算法是迄今为止最成功的的神经网络学习算法。

一般而言，只需包含一个足够多神经元的隐层，就能以任意精度逼近任意复杂度的连续函数[Hornik et al.,1989]，故下面以训练单隐层的前馈神经网络为例，介绍BP神经网络的算法思想。

神经网络和误差逆传播算法（BP）-风君雪科技博客

上图为一个单隐层前馈神经网络的拓扑结构，BP神经网络算法也使用梯度下降法（gradient descent），以单个样本的均方误差的负梯度方向对权重进行调节。可以看出：BP算法首先将误差反向传播给隐层神经元，调节隐层到输出层的连接权重与输出层神经元的阈值；接着根据隐含层神经元的均方误差，来调节输入层到隐含层的连接权值与隐含层神经元的阈值。BP算法基本的推导过程与感知机的推导过程原理是相同的，下面给出调整隐含层到输出层的权重调整规则的推导过程：