为了给对应位置一个prior,给它一个初始值,b越大,σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+e−z1越大,越趋向于1.
神经网络输入输出关系
cross entropy 的结果越低越好
对于分类问题来说,预测的输出可以看作是一个概率分布,真实的label 也是一个概率分布,计算这两者之间的cross entroy, 差异越大的话,代表模型越差
θ\thetaθ 就是模型中所有参数变量集合
梯度下降的问题:
看完训练集中的所有数据集,再去更新梯度,训练速度会很慢
所以 为了提升训练速度, 提出 随机梯度下降:
每看一个样本,都更新一次梯度
假设每个样本随机抽取的概率是一样的,服从均匀分布。
每次挑选 batch_size个样本去更新梯度。
mini-batch SGD 训练的时候 的tips:
为什么mini-batch SGD 比SGD 训练更快
因为两次的matric-vector 的计算 比 一次 matric-matrix计算 耗时更长。
反向传播是为了用来快速计算梯度
举个例子:
对于第一层来说,是这样:
也就是
总结起来::
一次前向传播计算和一次后向传播计算,就可以把网络中的需要更新的参数都记录下来,提升速度
可能原因: overfitting了 过拟合了
解决方法: