神经网络的数学基础

神经网络的数据表示

使用张量作为基本数据结构。

是一个数据容器。
它包含的数据几乎总是数值数据，因此它是数字的容器。
矩阵是二维张量。

张量是矩阵向任意维度的推广。张量的 维度（dimension) 叫做 轴（axis）

高维度张量以此类推。

张量由以下三个关键属性来定义。

很多库中不存在字符串张量。

数据张量的第一个轴（0轴）都是样本轴（sample axis，样本维度）。深度学习模型不会同时处理整个数据集，而是将数据拆分成小批量。
对于这种批量张量，第一个轴（0轴)叫做批量轴（batch axis）或批量维度（batch dimension）。

两个形状不同的张量进行操作，会发生什么？

较小的张量会被广播（broadcast），以匹配较大张量的形状。

广播包含以下两个步骤：

点积运算，也叫张量积（tensor product）。
它将输入张量的元素合并在一起。

z = np.dot(x,y)

数学符号中

z = x.y

两个向量之间的点积是一个标量，而且只有元素个数相同的向量之间才能做点积。

张量变形是指改变张量的行和列，以得到想要的形状。

特殊的张量变形：转置（transposition）。

对于第四步，更好的方法是利用网络中所有运算都是 可微（differentiable） 的，计算损失相对于网络系数的 梯度（gradient），然后向梯度的反方向改变系数，从而使损失降低。

可微的意思是“可以被求导”

随机（stochastic）是指每批数据都是随机抽取的。

真SGD：每次迭代时只抽取一个样本和目标。
批量SGD：每一次迭代都在所有数据上运行。这样每次更新都更加准确，但计算代价也高很多。

SGD还有很多种变体，带动量的SGD等变体，被称为优化方法（optimization method）或 优化器（optimizer）。

动量方法的实现过程是，每一步都移动小球，不仅要考虑当前的斜率值（当前的加速度），还要考虑当前的速度（来自于之前的加速度）。
在神经网络中，更新参数w不仅要考虑当前的梯度值，还要考虑上一次的参数更新。