DL基石-神经网络简易教程

2020-06-18 10:50

说到激活函数，我们来了解一下它们的用途激活函数帮助我们决定是否需要激活该神经元，如果我们需要激活该神经元那么信号的强度是多少。激活函数是神经元通过神经网络处理和传递信息的机制。让我们用预测天气的样本数据来理解神经网络为了更好地理解，我们将进行简化，我们只需要两个输入：有两个隐藏节点的温度和能见度，没有偏置。对于输出，我们仍然希望将天气划分为晴天或不晴天温度是华氏温度，能见度是英里。

让我们看一个温度为50华氏度，能见度为0．01英里的数据。步骤1：我们将权重随机初始化为一个接近于0但不等于0的值。步骤2：接下来，我们用温度和能见度的输入节点获取我们的单个数据点，并输入到神经网络。步骤3：从左到右进行前向传播，将权值乘以输入值，然后使用ReLU作为激活函数。目前ReLU是全连接网络最常用的激活函数。步骤4：现在我们预测输出，并将预测输出与实际输出值进行比较。由于这是一个分类问题，我们使用交叉熵函数

交叉熵是一个非负的代价函数，取值范围在0和1之间在我们的例子中，实际的输出不是晴天，所以y的值为0。如果y？是1，那么我们把值代入成本函数，看看得到什么

类似地，当实际输出和预测输出相同时，我们得到成本c＝0。

我们可以看到，对于交叉熵函数，当预测的输出与实际输出相匹配时，成本为零；当预测的输出与实际输出不匹配时，成本是无穷大的。步骤5：从右向左反向传播并调整权重。权重是根据权重对错误负责的程度进行调整的，学习率决定了我们更新权重的多少。反向传播、学习率，我们将用简单的术语来解释一切。反向传播把反向传播看作是我们有时从父母、导师、同伴那里得到的反馈机制，反馈帮助我们成为一个更好的人。反向传播是一种快速的学习算法，它告诉我们，当我们改变权重和偏差时，成本函数会发生怎样的变化，从而改变了神经网络的行为。这里不深入研究反向传播的详细数学。在反向传播中，我们计算每个训练实例的成本对权重的偏导数和成本对偏差的偏导数，然后求所有训练样本的偏导数的平均值。对于我们的单个数据点，我们确定每个权值和偏差对错误的影响程度，基于这些权值对错误的影响程度，我们同时调整所有权值。对于使用批量梯度下降（GD）算法，所有训练数据更新一次权值；对于使用随机梯度下降（SGD）算法，每一个批次训练示例更新一次权值。对于不同的权重，我们使用GD或SGD重复步骤1到步骤5。随着权重的调整，某些节点将根据激活函数进行打开或关闭。在我们的天气例子中，温度与预测多云的相关性较小，因为夏季的温度可能在70度以上，而冬季仍然是多云的，或者冬季的温度可能在30度或更低，但仍然是多云的，在这种情况下，激活函数可以决定关闭负责温度的隐藏节点，只打开可见度节点，以预测输出不是晴天，如下图所示

Epoch是指用于一次学习，一次正向传播和一次反向传播的完整数据集。我们可以重复也就是在多个epoch下前向和反向传播，直到我们收敛到一个全局极小值。什么是学习率？学习率控制着我们应该在多大程度上根据损失梯度调整权重。值越低，学习越慢，收敛到全局最小也越慢。较高的学习率值不会使梯度下降收敛学习率是随机初始化的。