机器学习专有名词解释

以Image Super-Resolution Using Deep Convolutional Networks为例尝试解释专有名词

发表于 2024/11/09

作者

4 分钟阅读

机器学习专有名词解释

写在前面

此笔记尚未完成

本人纯小白，仅仅是对ML感兴趣，甚至因病没有高数基础，本文的内容既不严谨也不能保证完全准确，内容请自行评判

文章地址(arXiv)

文中提到了名为网络退化的问题，传统的神经网络理论认为增加层数可以提升神经网络的表达能力，更深的网络可以逼近更复杂的函数，然而实际训练时，超过了一定层数模型的表达效果反而更差

恒等映射是一个数学概念: 一个从某个集合到自身的映射，它将集合中的每一个元素映射到它自己

符号表达法如下：

I:X→X其中I(x)=x,∀x∈X

在机器学习或其他数学应用中，恒等映射常用于表示一种没有变化的变换，在文中表示跳跃连接（skip connections）和残差连接（residual connections）

为了解决这个问题，文中作者认为在增加层数后至少让增加的层数能够学习恒等映射，也就是即使带不来好处至少不要劣化模型

于是提出了残差学习的概念

残差学习的核心思想是，直接让网络学习残差（Residual）而不是期望映射 (Expected Mapping)

指一个函数在某一点的变化率或方向，通常用于优化算法中，帮助我们找到一个函数最小值或最大值的方向

通过计算梯度，我们可以确定如何调整参数，以减少误差，从而让模型的预测更加准确

在训练神经网络时，反向传播算法（Backpropagation）通过计算梯度来调整每一层的参数，使得预测误差逐步减小。梯度越大，参数更新的步伐就越大；梯度越小，参数更新就越小

在深度神经网络的反向传播过程中，梯度在逐层传播时会逐渐减小，导致靠近输入层的参数更新非常缓慢，甚至几乎不更新。这会使得模型难以学习到有效的特征

与梯度消失相反，在某些情况下，梯度值会随着传播逐渐增大，导致靠近输入层的参数更新剧烈，模型变得不稳定，训练难以收敛

本文由作者按照 CC BY 4.0 进行授权