台大应用深度学习笔记
创始人
2024-05-05 05:16:18
0

deep learning

  1. end-to-end training
    在这里插入图片描述

在这里插入图片描述

1. 神经元

在这里插入图片描述

1.1 为什么需要bias?

为了给对应位置一个prior,给它一个初始值,b越大,σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+e−z1​越大,越趋向于1.

在这里插入图片描述

多层神经网络:

在这里插入图片描述
神经网络输入输出关系
在这里插入图片描述

3. 激活函数

在这里插入图片描述

3.1 为啥要非线性激活函数?

在这里插入图片描述

4. 模型评估: Loss Function

在这里插入图片描述

在这里插入图片描述
cross entropy 的结果越低越好
对于分类问题来说,预测的输出可以看作是一个概率分布,真实的label 也是一个概率分布,计算这两者之间的cross entroy, 差异越大的话,代表模型越差

4. 优化:

4.1 梯度下降

在这里插入图片描述
在这里插入图片描述
θ\thetaθ 就是模型中所有参数变量集合
梯度下降的问题
看完训练集中的所有数据集,再去更新梯度,训练速度会很慢
在这里插入图片描述

4.2 随机梯度下降(SGD)

所以 为了提升训练速度, 提出 随机梯度下降
每看一个样本,都更新一次梯度

假设每个样本随机抽取的概率是一样的,服从均匀分布。

在这里插入图片描述
在这里插入图片描述

4.3 mini-batch SGD

每次挑选 batch_size个样本去更新梯度。
在这里插入图片描述
在这里插入图片描述

mini-batch SGD 训练的时候 的tips:

  1. 每一个epoch之间 shuffle一下 训练样本
  2. 每个epoch 都有相同的 batch_size
  3. 调整batch_size时 learning rate 也应做适量调整
    (batch_size 变大时,每个epoch梯度更新的次数下降,那么也需要相应较大的learning rate。 有论文提到 K 倍的 batch_size, learning rate 应变成 K\sqrt KK​倍数)

4.4 三者的比较

在这里插入图片描述

为什么mini-batch SGD 比SGD 训练更快
在这里插入图片描述
因为两次的matric-vector 的计算 比 一次 matric-matrix计算 耗时更长。

4.5 back propagation 反向传播

反向传播是为了用来快速计算梯度

在这里插入图片描述
举个例子:
在这里插入图片描述

第一部分:

在这里插入图片描述
在这里插入图片描述
对于第一层来说,是这样:

在这里插入图片描述

第二部分

在这里插入图片描述

在这里插入图片描述
也就是
在这里插入图片描述

在这里插入图片描述

总结起来

总结起来::

在这里插入图片描述
一次前向传播计算和一次后向传播计算,就可以把网络中的需要更新的参数都记录下来,提升速度

5 模型训练的tips

5.1 在训练集无法得到好的结果

  1. 陷入局部最优、 训练策略需要调整,调整learning_rate, 或者初始值
  2. 模型不好:重新构建模型结构
    在这里插入图片描述

5.2 在训练集结果很好,但在validate集的结果不好

可能原因: overfitting了 过拟合了

在这里插入图片描述
解决方法:

  1. 增加训练数据
  2. dropout

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
【Ctfer训练计划】——(三... 作者名:Demo不是emo  主页面链接:主页传送门 创作初心ÿ...