台大应用深度学习笔记_科技_发门网

台大应用深度学习笔记

创始人

2024-05-05 05:16:18

0次

deep learning

end-to-end training

在这里插入图片描述

1. 神经元

在这里插入图片描述

1.1 为什么需要bias？

为了给对应位置一个prior，给它一个初始值，b越大，σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+e−z1越大，越趋向于1.

在这里插入图片描述

多层神经网络：

在这里插入图片描述
神经网络输入输出关系

3. 激活函数

在这里插入图片描述

3.1 为啥要非线性激活函数？

在这里插入图片描述

4. 模型评估： Loss Function

在这里插入图片描述

在这里插入图片描述
cross entropy 的结果越低越好
对于分类问题来说，预测的输出可以看作是一个概率分布，真实的label 也是一个概率分布，计算这两者之间的cross entroy，差异越大的话，代表模型越差

4. 优化：

4.1 梯度下降

在这里插入图片描述

θ\thetaθ 就是模型中所有参数变量集合
梯度下降的问题：
看完训练集中的所有数据集，再去更新梯度，训练速度会很慢

4.2 随机梯度下降（SGD）

所以为了提升训练速度，提出 随机梯度下降：
每看一个样本，都更新一次梯度

假设每个样本随机抽取的概率是一样的，服从均匀分布。

在这里插入图片描述

4.3 mini-batch SGD

每次挑选 batch_size个样本去更新梯度。
在这里插入图片描述

mini-batch SGD 训练的时候的tips：

每一个epoch之间 shuffle一下训练样本
每个epoch 都有相同的 batch_size
调整batch_size时 learning rate 也应做适量调整
（batch_size 变大时，每个epoch梯度更新的次数下降，那么也需要相应较大的learning rate。有论文提到 K 倍的 batch_size, learning rate 应变成 K\sqrt KK倍数）

4.4 三者的比较

在这里插入图片描述

为什么mini-batch SGD 比SGD 训练更快
在这里插入图片描述
因为两次的matric-vector 的计算比一次 matric-matrix计算耗时更长。

4.5 back propagation 反向传播

反向传播是为了用来快速计算梯度

在这里插入图片描述
举个例子：

第一部分：

在这里插入图片描述

对于第一层来说，是这样：

在这里插入图片描述

第二部分

在这里插入图片描述

在这里插入图片描述
也就是

在这里插入图片描述

总结起来

总结起来：：

在这里插入图片描述
一次前向传播计算和一次后向传播计算，就可以把网络中的需要更新的参数都记录下来，提升速度

5 模型训练的tips

5.1 在训练集无法得到好的结果

陷入局部最优、训练策略需要调整，调整learning_rate, 或者初始值
模型不好：重新构建模型结构

5.2 在训练集结果很好，但在validate集的结果不好

可能原因： overfitting了过拟合了

在这里插入图片描述
解决方法：

增加训练数据
dropout

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：数字调制系列：如何理解IQ ？

下一篇：力扣刷题记录——258. 各位相加、263.丑数、268.丢失的数字

相关内容

热门资讯

【PdgCntEditor】解... 一、问题背景大部分的图书对应的PDF，目录中的页码并非PDF中直接索引的页码...

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播，要解决的几个问题是：1&...

在Word、WPS中插入AxM... 引言我最近需要写一些文章，在排版时发现AxMath插入的公式竟然会导致行间距异常&#...

protocol buffer... 目录目录什么是protocol buffer 1.protobuf 1.1安装 1.2使用...

修复爱普生 EPSON L4... L4151 L4153 L4156 L4158 L4163 L4165 L4166 L4168 L4...

Windows10添加群晖磁盘... 在使用群晖NAS时，我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。通过...

Fluent中创建监测点 1 概述某些仿真问题，需要创建监测点，用于获取空间定点的数据࿰...

ChatGPT 怎么用最新详细... ChatGPT 以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人...

educoder数据结构与算法... ...

MySQL下载和安装（Wind... 前言：刚换了一台电脑，里面所有东西都需要重新配置，习惯了所...