BP 神经网络之初步理解举例 (Backpropagation Neural Networks)

2016-08-08 | 阅读：次

看到深度学习如此火爆，神经网络相关资料层出不穷，不禁想起研究生阶段上过的神经网络课程，似懂非懂。这次兴起，仔细看了下应用最广泛的神经网络之一的 BP 神经网络，介绍如下文所示。

简介

BP (back propagation) 神经网络是1986年由 Rumelhart 和 McClelland 为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络。

基本原理

BP 神经网络是一种按误差反向传播训练的多层前馈网络，其算法称为 BP 算法。利用梯度下降法，调整神经网络中的权重参数，以期使网络的实际输出值和期望输出值的误差均方差为最小，即使得预测输出跟踪给定输出。

计算过程

BP 神经网络的计算包括两个过程：正向计算和反向计算。

正向计算：输入层数据经隐含层逐层处理，最终转向输出层，得出实际输出；
反向计算：将实际输出与期望输出间的误差信号沿着网络连接通路反向传播，辅助修正各神经元的权重，以期误差信号最小。

现在以一个典型的三层神经网络为例说明参数的计算推理调整过程。

如图所示三层神经网络：输入层 $Layer_1$、隐含层 $Layer_2$、输出层 $Layer_3$．输入层包括三个神经元，即输入为 $\boldsymbol{x}=\lbrace x_1,x_2,x_3 \rbrace$，输出为 $\boldsymbol{y}=\lbrace o_1,o_2 \rbrace$．样本数据集为 $\mathcal{D}=\lbrace (\boldsymbol{x}_i,\boldsymbol{y}_i)\rbrace_{i=1}^{m}$，$\boldsymbol{x}_i \in \mathbb{R}^3$，$\boldsymbol{y}_i \in \mathbb{R}^2$，目标输出为 $o^{\text{T}}_1$ 和 $o^{\text{T}}_2$．$\omega^{\text{L}_k}_{ij}$ 为第 $k-1$ 层的第 $i$ 个神经元到第 $k$ 层的第 $j$ 个神经元之间的权重．$\boldsymbol{b}^{\text{L}_k}=\{b^{\text{L}_k}_{i}\}$ 为第 $k$ 层神经元偏移量集合，$b^{\text{L}_k}_{i}$ 为第 $k$ 层第 $i$ 个神经元的偏移量．$net^{\text{L}_k}_{i}$ 表示第 $k$ 层网络的第 $i$ 个神经元的输入，$o^{\text{L}_k}_{i}$ 表示第 $k$ 层网络的第 $i$ 个神经元的输出，$f^{\text{L}_k}_{i}(\cdot)$ 表示第 $k$ 层网络的第 $i$ 个神经元的激活函数．

假设采用常见的激活函数 sigmoid 函数： \begin{equation} f(x) = \frac{1}{1+e^{-x}} \end{equation} 其导数为： \begin{equation} f’(x) = f(x)(1-f(x)) \end{equation}

对于 $Layer_2$ 层第 $j$ 个神经元的输入：

\[\begin{equation} net^{\text{L}_2}_{j} = \sum_{i=1}^{3}{\omega^{\text{L}_1}_{ij} \times x_i} + b^{\text{L}_2}_{j} \end{equation}\]

对于 $Layer_3$ 层的第 $j$ 个神经元的输入：

\[\begin{equation} net^{\text{L}_3}_{j} = \sum_{i=1}^{3}{\omega^{\text{L}_2}_{ij} \times o^{\text{L}_2}_i} + b^{\text{L}_3}_{j} \end{equation}\]

第 $\text{L}_i$ 层的第 $j$ 个神经元的输出：

\[\begin{equation}\label{eqn:output of BP neural networks} o^{\text{L}_i}_{j} = f^{\text{L}_i}_{j}{(net^{\text{L}_i}_j)} = \frac{1}{1+e^{-net^{\text{L}_i}_j}} \end{equation}\]

输出的总误差为：

\[\begin{equation} E_{\text{Total}} = \frac{1}{2}\sum_{j=1}^{2}{(o^{\text{T}}_j - o^{\text{L}_3}_{j})^2} = \frac{1}{2}((o^{\text{T}}_1 - o^{\text{L}_3}_{1})^2 + (o^{\text{T}}_2 - o^{\text{L}_3}_{2})^2) \end{equation}\]

总误差为是关于 $o^{\text{L}_3}_{1}$ 和 $o^{\text{L}_3}_{2}$ 的函数．

BP 算法基于梯度下降（gradient descent）策略，以目标的负梯度方向对参数进行调整．它是一个迭代学习算法，在迭代的每一轮中采用广义的感知机学习规则对参数进行更新估计，任一参数 $v$ 的更新估计式为

\[\begin{equation} v \leftarrow v + \Delta v \end{equation}\]

A．$Layer_2$ 与 $Layer_3$ 间参数调整

调整 $Layer_2$ 与 $Layer_3$ 间的权重 $\omega^{\text{L}_2}_{ij}$．总误差对 $\omega^{\text{L}_2}_{ij}$ 的偏导数为：

\[\begin{align} \frac{\partial E_{\text{Total}}}{\partial \omega^{\text{L}_2}_{ij}} &= \frac{\partial E_{\text{Total}}}{\partial o^{\text{L}_3}_{j}} \cdot \frac{\partial o^{\text{L}_3}_{j}}{\partial net^{\text{L}_3}_{j}} \cdot \frac{\partial net^{\text{L}_3}_{j}}{\partial \omega^{\text{L}_2}_{ij}} \\ &= -(o^{\text{T}}_{j} - o^{\text{L}_3}_{j}) \cdot f^{\text{L}_3}_{j}{(net^{\text{L}_3}_j)}(1 - f^{\text{L}_3}_{j}{(net^{\text{L}_3}_j)}) \cdot o^{\text{L}_2}_{i} \nonumber\\ &= -(o^{\text{T}}_{j} - o^{\text{L}_3}_{j}) \cdot o^{\text{L}_3}_{j}(1 - o^{\text{L}_3}_{j}) \cdot o^{\text{L}_2}_{i} \nonumber \end{align}\]

令 $\delta^{\text{L}_2}_{ij}$ 表示 $Layer_2$ 层第 $i$ 个神经元与 $Layer_3$ 层第 $j$ 个神经元间权重的梯度项，则

\[\begin{equation} \delta^{\text{L}_2}_{ij} = \frac{\partial E_{\text{Total}}}{\partial o^{\text{L}_3}_{j}} \cdot \frac{\partial o^{\text{L}_3}_{j}}{\partial net^{\text{L}_3}_{j}} = -(o^{\text{T}}_{j} - o^{\text{L}_3}_{j}) \cdot o^{\text{L}_3}_{j}(1 - o^{\text{L}_3}_{j}) \end{equation}\]

可以看出， $Layer_2$ 层第 $i$ 个神经元与 $Layer_3$ 层第 $j$ 个神经元间权重的梯度项是与 $i$ 无关的，故连接至 $Layer_3$ 层第 $j$ 个神经元相对应的权重的梯度项均为 $\delta^{\text{L}_2}_{ij}$，用 $\delta^{\text{L}_2}_{\cdot j}$ 表示，

\[\begin{equation}\label{eqn:Gradient computation between L2 and L3} \delta^{\text{L}_2}_{\cdot j} = \delta^{\text{L}_2}_{ij} = -(o^{\text{T}}_{j} - o^{\text{L}_3}_{j}) \cdot o^{\text{L}_3}_{j}(1 - o^{\text{L}_3}_{j}) \end{equation}\]

则整体误差 $E_{\text{Total}}$ 对 $\omega^{\text{L}_2}_{ij}$ 的偏导数公式写作：

\[\begin{equation} \frac{\partial E_{\text{Total}}}{\partial \omega^{\text{L}_2}_{ij}} = \delta^{\text{L}_2}_{\cdot j} \cdot o^{\text{L}_2}_{i} \end{equation}\]

则权重 $\omega^{\text{L}_2}_{ij}$ 的学习公式为：

\[\begin{align}\label{eqn:Self-updating formular for weights between L2 and L3} \widehat{\omega}^{\text{L}_2}_{ij} &= \omega^{\text{L}_2}_{ij} - \eta \cdot \frac{\partial E_{\text{Total}}}{\partial \omega^{\text{L}_2}_{ij}} \\ &= \omega^{\text{L}_2}_{ij} - \eta \cdot \delta^{\text{L}_2}_{\cdot j} \cdot o^{\text{L}_2}_{i} \nonumber \end{align}\]

其中，$\eta$ 为学习速率．

调整 $Layer_3$ 的偏移量参数．$Layer_3$ 的第 $j$ 个神经元的偏移量 $b^{\text{L}_3}_{j}$ 的梯度为：

\[\begin{align} \frac{\partial E_{\text{Total}}}{\partial b^{\text{L}_3}_{j}} &= \frac{\partial E_{\text{Total}}}{\partial o^{\text{L}_3}_{j}} \cdot \frac{\partial o^{\text{L}_3}_{j}}{\partial net^{\text{L}_3}_{j}} \cdot \frac{\partial net^{\text{L}_3}_{j}}{\partial b^{\text{L}_3}_{j}} \\ &= -(o^{\text{T}}_{j} - o^{\text{L}_3}_{j}) \cdot f^{\text{L}_3}_{j}{(net^{\text{L}_3}_j)}(1 - f^{\text{L}_3}_{j}{(net^{\text{L}_3}_j)}) \cdot 1 \nonumber\\ &= -(o^{\text{T}}_{j} - o^{\text{L}_3}_{j}) \cdot o^{\text{L}_3}_{j}(1 - o^{\text{L}_3}_{j}) \nonumber\\ &= \delta^{\text{L}_2}_{\cdot j} \nonumber \end{align}\]

偏移 $b^{\text{L}_3}_{j}$ 的学习公式为：

\[\begin{equation}\label{eqn:Self-updating formular for bias in L3} \hat{b}^{\text{L}_3}_{j} = b^{\text{L}_3}_{j} - \eta \cdot \frac{\partial E_{\text{Total}}}{\partial b^{\text{L}_3}_{j}} = b^{\text{L}_3}_{j} - \eta \cdot \delta^{\text{L}_2}_{\cdot j} \end{equation}\]

例如，依据公式（\ref{eqn:Self-updating formular for weights between L2 and L3}），对于权重 $\omega^{\text{L}_2}_{11}$ 的更新学习公式为：

\[\begin{align*} \widehat{\omega}^{\text{L}_2}_{11} &= \omega^{\text{L}_2}_{11} - \eta \cdot \frac{\partial E_{\text{Total}}}{\partial \omega^{\text{L}_2}_{11}} \\ &= \omega^{\text{L}_2}_{11} - \eta \cdot \delta^{\text{L}_2}_{11} \cdot o^{\text{L}_2}_{1} \\ &= \omega^{\text{L}_2}_{11} - \eta \cdot \big(-(o^{\text{T}}_{1} - o^{\text{L}_3}_{1}) \cdot o^{\text{L}_3}_{1}(1 - o^{\text{L}_3}_{1})\big) \cdot o^{\text{L}_2}_{1} \\ &= \omega^{\text{L}_2}_{11} + \eta \cdot (o^{\text{T}}_{1} - o^{\text{L}_3}_{1}) \cdot o^{\text{L}_3}_{1}(1 - o^{\text{L}_3}_{1}) \cdot o^{\text{L}_2}_{1} \end{align*}\]

例如，依据公式（\ref{eqn:Self-updating formular for bias in L3}），对于偏移 $b^{\text{L}_3}_{1}$ 的更新学习公式为：

\[\begin{align*} \hat{b}^{\text{L}_3}_{1} &= b^{\text{L}_3}_{1} - \eta \cdot \frac{\partial E_{\text{Total}}}{\partial b^{\text{L}_3}_{1}} \\ &= b^{\text{L}_3}_{1} + \eta \cdot (o^{\text{T}}_{1} - o^{\text{L}_3}_{1}) \cdot o^{\text{L}_3}_{1}(1 - o^{\text{L}_3}_{1}) \end{align*}\]

B．$Layer_1$ 与 $Layer_2$ 间参数调整

调整 $Layer_1$ 与 $Layer_2$ 间的权重 $\omega^{\text{L}_1}_{ij}$．总体误差对 $\omega^{\text{L}_1}_{ij}$ 的偏导数为：

\[\begin{align} \frac{\partial E_{\text{Total}}}{\partial \omega^{\text{L}_1}_{ij}} &= (\sum_{k=1}^{2}{\frac{\partial E_{\text{Total}}}{\partial o^{\text{L}_3}_{k}} \frac{\partial o^{\text{L}_3}_{k}}{\partial net^{\text{L}_3}_k} \frac{\partial net^{\text{L}_3}_k}{\partial o^{\text{L}_2}_{j}}}) \cdot \frac{\partial o^{\text{L}_2}_{j}}{\partial net^{\text{L}_2}_j} \cdot \frac{\partial net^{\text{L}_2}_j}{\partial \omega^{\text{L}_1}_{ij}} \\ &= (\sum_{k=1}^{2}{\delta^{\text{Layer}_2}_{\cdot k} \omega^{\text{L}_2}_{3k}}) \cdot f^{\text{L}_2}_{j}{(net^{\text{L}_2}_j)}(1 - f^{\text{L}_2}_{j}{(net^{\text{L}_2}_j)}) \cdot x_i \nonumber\\ &= (\sum_{k=1}^{2}{\delta^{\text{Layer}_2}_{\cdot k} \omega^{\text{L}_2}_{3k}}) \cdot o^{\text{L}_2}_{j}(1 - o^{\text{L}_2}_{j}) \cdot x_i \nonumber \end{align}\]

令 $\delta^{\text{L}_1}_{ij}$ 表示 $Layer_1$ 层第 $i$ 个神经元与 $Layer_2$ 层第 $j$ 个神经元间权重的梯度项，则

\[\begin{align} \delta^{\text{L}_1}_{ij} &= (\sum_{k=1}^{2}{\frac{\partial E_{\text{Total}}}{\partial o^{\text{L}_3}_{k}} \frac{\partial o^{\text{L}_3}_{k}}{\partial net^{\text{L}_3}_k} \frac{\partial net^{\text{L}_3}_k}{\partial o^{\text{L}_2}_{j}}}) \cdot \frac{\partial o^{\text{L}_2}_{j}}{\partial net^{\text{L}_2}_j} \\ &= (\sum_{k=1}^{2}{\delta^{\text{Layer}_2}_{\cdot k} \omega^{\text{L}_2}_{3k}}) \cdot o^{\text{L}_2}_{j}(1 - o^{\text{L}_2}_{j}) \nonumber \end{align}\]

可以看出， $Layer_1$ 层第 $i$ 个神经元与 $Layer_2$ 层第 $j$ 个神经元间权重的梯度项是与 $i$ 无关的，故连接至 $Layer_2$ 层第 $j$ 个神经元相对应的权重的梯度向均为 $\delta^{\text{L}_1}_{ij}$，用 $\delta^{\text{L}_1}_{\cdot j}$ 表示，

\[\begin{equation}\label{eqn:Gradient computation between L1 and L2} \delta^{\text{L}_1}_{\cdot j} = \delta^{\text{L}_1}_{ij} = (\sum_{k=1}^{2}{\delta^{\text{Layer}_2}_{\cdot k} \omega^{\text{L}_2}_{3k}}) \cdot o^{\text{L}_2}_{j}(1 - o^{\text{L}_2}_{j}) \end{equation}\]

则整体误差 $E_{\text{Total}}$ 对 $\omega^{\text{L}_1}_{ij}$ 的偏导数公式写作：

\[\begin{equation} \frac{\partial E_{\text{Total}}}{\partial \omega^{\text{L}_1}_{ij}} = \delta^{\text{L}_1}_{\cdot j} \cdot x_i \end{equation}\]

则权重 $\omega^{\text{L}_1}_{ij}$ 的学习公式为：

\[\begin{equation}\label{eqn:Self-updating formular for weights between L1 and L2} \widehat{\omega}^{\text{L}_1}_{ij} = \omega^{\text{L}_1}_{ij} - \eta \cdot \frac{\partial E_{\text{Total}}}{\partial \omega^{\text{L}_1}_{ij}} = \omega^{\text{L}_1}_{ij} - \eta \cdot \delta^{\text{L}_1}_{\cdot j} \cdot x_i \end{equation}\]

整体误差 $E_{\text{Total}}$ 对 $b^{\text{L}_2}_{j}$ 的偏导数公式写作：

\[\begin{align} \frac{\partial E_{\text{Total}}}{\partial b^{\text{L}_2}_{j}} &= (\sum_{k=1}^{2}{\frac{\partial E_{\text{Total}}}{\partial o^{\text{L}_3}_{k}} \frac{\partial o^{\text{L}_3}_{k}}{\partial net^{\text{L}_3}_k} \frac{\partial net^{\text{L}_3}_k}{\partial o^{\text{L}_2}_{j}}}) \cdot \frac{\partial o^{\text{L}_2}_{j}}{\partial net^{\text{L}_2}_j} \cdot \frac{\partial net^{\text{L}_2}_j}{\partial b^{\text{L}_2}_{j}} \\ &= (\sum_{k=1}^{2}{\delta^{\text{Layer}_2}_{\cdot k} \omega^{\text{L}_2}_{3k}}) \cdot f^{\text{L}_2}_{j}{(net^{\text{L}_2}_j)}(1 - f^{\text{L}_2}_{j}{(net^{\text{L}_2}_j)}) \cdot 1 \nonumber\\ &= (\sum_{k=1}^{2}{\delta^{\text{Layer}_2}_{\cdot k} \omega^{\text{L}_2}_{3k}}) \cdot o^{\text{L}_2}_{j}(1 - o^{\text{L}_2}_{j}) \nonumber\\ &= \delta^{\text{L}_1}_{\cdot j} \nonumber \end{align}\]

偏移 $b^{\text{L}_2}_{j}$ 的学习公式为：

\[\begin{equation}\label{eqn:Self-updating formular for bias in L2} \hat{b}^{\text{L}_2}_{j} = b^{\text{L}_2}_{j} - \eta \cdot \frac{\partial E_{\text{Total}}}{\partial b^{\text{L}_2}_{j}} = b^{\text{L}_2}_{j} - \eta \cdot \delta^{\text{L}_1}_{\cdot j} \end{equation}\]

例如，依据公式（\ref{eqn:Self-updating formular for weights between L1 and L2}）对于权重 $\omega^{\text{L}_1}_{23}$ 的更新学习公式为：

\[\begin{align}\label{eq2:description} \widehat{\omega}^{\text{L}_1}_{23} &= \omega^{\text{L}_2}_{23} - \eta \cdot \frac{\partial E_{\text{Total}}}{\partial \omega^{\text{L}_1}_{23}} \\ &= \omega^{\text{L}_2}_{23} - \eta \cdot \big((\sum_{j=1}^{2}{\frac{\partial E_{\text{Total}}}{\partial o^{\text{L}_3}_{j}} \frac{\partial o^{\text{L}_3}_{j}}{\partial net^{\text{L}_3}_j} \frac{\partial net^{\text{L}_3}_j}{\partial o^{\text{L}_2}_{3}}}) \cdot \frac{\partial o^{\text{L}_2}_{3}}{\partial net^{\text{L}_2}_3} \cdot \frac{\partial net^{\text{L}_2}_3}{\partial \omega^{\text{L}_1}_{23}}\big) \nonumber\\ &= \omega^{\text{L}_2}_{23} - \eta \cdot (\sum_{j=1}^{2}{\delta^{\text{Layer}_2}_{\cdot j} \omega^{\text{L}_2}_{3j}}) \cdot f^{\text{L}_2}_{3}{(net^{\text{L}_2}_3)}(1 - f^{\text{L}_2}_{3}{(net^{\text{L}_2}_3)}) \cdot x_2 \nonumber\\ &= \omega^{\text{L}_2}_{23} - \eta \cdot (\sum_{j=1}^{2}{\delta^{\text{Layer}_2}_{\cdot j} \omega^{\text{L}_2}_{3j}}) \cdot o^{\text{L}_2}_{3}(1 - o^{\text{L}_2}_{3}) \cdot x_2 \nonumber \end{align}\]

例如，依据公式（\ref{eqn:Self-updating formular for bias in L2}），对于偏移 $b^{\text{L}_2}_{3}$ 的更新学习公式为：

\[\begin{align}\label{eq1:description} \hat{b}^{\text{L}_2}_{3} &= b^{\text{L}_3}_{1} - \eta \cdot \frac{\partial E_{\text{Total}}}{\partial b^{\text{L}_2}_{3}} \\ &= b^{\text{L}_2}_{3} - \eta \cdot \big((\sum_{j=1}^{2}{\frac{\partial E_{\text{Total}}}{\partial o^{\text{L}_3}_{j}} \frac{\partial o^{\text{L}_3}_{j}}{\partial net^{\text{L}_3}_j} \frac{\partial net^{\text{L}_3}_j}{\partial o^{\text{L}_2}_{3}}}) \cdot \frac{\partial o^{\text{L}_2}_{3}}{\partial net^{\text{L}_2}_3} \cdot \frac{\partial net^{\text{L}_2}_3}{\partial b^{\text{L}_2}_{3}}\big) \nonumber\\ &= b^{\text{L}_2}_{3} - \eta \cdot (\sum_{j=1}^{2}{\delta^{\text{Layer}_2}_{\cdot j} \omega^{\text{L}_2}_{3j}}) \cdot f^{\text{L}_2}_{3}{(net^{\text{L}_2}_3)}(1 - f^{\text{L}_2}_{3}{(net^{\text{L}_2}_3)}) \cdot 1 \nonumber\\ &= b^{\text{L}_2}_{3} - \eta \cdot (\sum_{j=1}^{2}{\delta^{\text{Layer}_2}_{\cdot j} \omega^{\text{L}_2}_{3j}}) \cdot o^{\text{L}_2}_{3}(1 - o^{\text{L}_2}_{3}) \nonumber \end{align}\]

需要指出的是学习率 $\eta \in (0,1)$ 控制着算法每一轮迭代中的更新步长，若太多则容易震荡；太小则收敛速录又会过慢．并且公式（\ref{eqn:Self-updating formular for weights between L2 and L3}）、（\ref{eqn:Self-updating formular for bias in L3}）、（\ref{eqn:Self-updating formular for weights between L1 and L2}）和（\ref{eqn:Self-updating formular for bias in L2}）中的学习率也未必相等．

C．误差反向传播算法

结合上述公式，根据样本参数计算总体误差；根据总体误差，更新神经网络参数；这样，实现信号的正向传递，误差的反向传播，参数的自适应．如此，不停的进行迭代直至满足停止条件．

具体而言，BP 算法执行以下操作：先将输入示例提供给输入层神经元，然后逐层将信号前传，直到产生输出层的结果；然后计算输出层的误差，再将误差逆向传播至隐层神经元，最后根据隐层神经元的误差来别连接权和偏移进行调整．该法代过程循环进行，直到达到某些停止条件为止，例如训练误差己达到一个很小的值．具体操作流程如下所示．

输入：训练集 $\mathcal{D}=\lbrace (\boldsymbol{x}_i,\boldsymbol{y}_i)\rbrace_{i=1}^{m}$

　　　学习率 $\eta$

过程：

在 $(0,1)$ 范围内随机初始化网络中所有连接权重和偏移量
repeat
　　for all $(\boldsymbol{x}_k,\boldsymbol{y}_k) \in \mathcal{D}$ do
　　　　根据当前参数和式（\ref{eqn:output of BP neural networks}）计算当前样本的输出$o^{\text{L}_3}_{j}$
　　　　根据式（\ref{eqn:Gradient computation between L2 and L3}）计算输出层神经元的梯度项 $\delta^{\text{L}_2}_{\cdot j}$
　　　　根据式（\ref{eqn:Gradient computation between L1 and L2}）计算隐含层各神经元的梯度项 $\delta^{\text{L}_1}_{\cdot j}$
　　　　根据式（\ref{eqn:Self-updating formular for weights between L2 and L3}）和（\ref{eqn:Self-updating formular for bias in L3}）更新连接权重 $\omega^{\text{L}_3}_{ij}$ 和偏移 $b^{\text{L}_3}_{j}$
　　　　根据式（\ref{eqn:Self-updating formular for weights between L1 and L2}）和（\ref{eqn:Self-updating formular for bias in L2}）更新连接权重$\omega^{\text{L}_2}_{ij}$ 和偏移 $b^{\text{L}_2}_{j}$
　　end for
until 达到停止条件
输出：连接权重与偏移量确定的多层前馈神经网络

扩展

上面介绍为“标准 BP 算法”，每次仅针对一个训练样例更新权重和偏移，也就是说，算法的更新规则是基于单个的样本的误差推导而得．

如果类似地推导出基于累积误差最小化的更新规则，就得到了累积误差逆传播（accumulated error backpropagation）算法．累积 BP 算法与标准 BP 算法都很常用．一般来说，标准 BP 算法每次更新只针对单个样例，参数更新得非常频繁，而且对不同样例进行更新的效果可能出现“抵消”现象．因此，为了达到同样的累积误差极小点，标准 BP 算法往往需进行更多次数的法代．累积 BP 算法直接针对累积误差最小化，它在读取整个训练集 $\mathcal{D}$ 一遍后才对参数进行更新，其参数更新的频率低得多．但在很多任务中，累积误差下降到一定程度之后，进一步下降会非常缓慢，这时标准 BP 往往会更快获得较好的解，尤其是在训练集 $\mathcal{D}$ 非常大时更明显.

Jack

李璇