pytorch复习笔记--loss.backward()、optimizer.step()和optimizer.zero_grad()的用法
创始人
2024-03-04 10:41:16
0

目录

1--loss.backward()的用法

2--optimizer.step()的用法

3--optimizer.zero_grad()的用法

4--举例说明

5--参考


1--loss.backward()的用法

作用:将损失loss向输入测进行反向传播;这一步会计算所有变量x的梯度值 \small \frac{d}{dx}loss,并将其累积为\small x*grad 进行备用,即 \small x*grad=(x*grad)_{pre}+\frac{d}{dx}loss ,公式中的 \small (x*grad)_{pre} 指的是上一个epoch累积的梯度。

2--optimizer.step()的用法

作用:利用优化器对参数x进行更新,以随机梯度下降SGD为例,更新的公式为:\small x = x - lr*(x*grad),lr 表示学习率 learning rate,减号表示沿着梯度的反方向进行更新;

3--optimizer.zero_grad()的用法

作用:清除优化器关于所有参数x的累计梯度值 \small x*grad,一般在loss.backward()前使用,即清除 \small (x*grad)_{pre}

4--举例说明

① 展示 loss.backward() 和 optimizer.step() 的用法:

import torch# 初始化参数值x
x = torch.tensor([1., 2.], requires_grad=True)# 模拟网络运算,计算输出值y
y = 100*x# 定义损失
loss = y.sum() print("x:", x)
print("y:", y)
print("loss:", loss)print("反向传播前, 参数的梯度为: ", x.grad)
# 进行反向传播
loss.backward()  # 计算梯度grad, 更新 x*grad    
print("反向传播后, 参数的梯度为: ", x.grad)# 定义优化器
optim = torch.optim.SGD([x], lr = 0.001) # SGD, lr = 0.001print("更新参数前, x为: ", x) 
optim.step()  # 更新x
print("更新参数后, x为: ", x)

② 展示不使用 optimizer.zero_grad() 的梯度:

import torch# 初始化参数值x
x = torch.tensor([1., 2.], requires_grad=True)# 模拟网络运算,计算输出值y
y = 100*x# 定义损失
loss = y.sum() print("x:", x)
print("y:", y)
print("loss:", loss)print("反向传播前, 参数的梯度为: ", x.grad)
# 进行反向传播
loss.backward()  # 计算梯度grad, 更新 x*grad    
print("反向传播后, 参数的梯度为: ", x.grad)# 定义优化器
optim = torch.optim.SGD([x], lr = 0.001) # SGD, lr = 0.001print("更新参数前, x为: ", x) 
optim.step()  # 更新x
print("更新参数后, x为: ", x)# 再进行一次网络运算
y = 100*x# 定义损失
loss = y.sum()# 不进行optimizer.zero_grad()
loss.backward()  # 计算梯度grad, 更新 x*grad 
print("不进行optimizer.zero_grad(), 参数的梯度为: ", x.grad)

③ 展示使用 optimizer.zero_grad() 的梯度:

import torch# 初始化参数值x
x = torch.tensor([1., 2.], requires_grad=True)# 模拟网络运算,计算输出值y
y = 100*x# 定义损失
loss = y.sum() print("x:", x)
print("y:", y)
print("loss:", loss)print("反向传播前, 参数的梯度为: ", x.grad)
# 进行反向传播
loss.backward()  # 计算梯度grad, 更新 x*grad    
print("反向传播后, 参数的梯度为: ", x.grad)# 定义优化器
optim = torch.optim.SGD([x], lr = 0.001) # SGD, lr = 0.001print("更新参数前, x为: ", x) 
optim.step()  # 更新x
print("更新参数后, x为: ", x)# 再进行一次网络运算
y = 100*x# 定义损失
loss = y.sum()# 进行optimizer.zero_grad()
optim.zero_grad()
loss.backward()  # 计算梯度grad, 更新 x*grad 
print("进行optimizer.zero_grad(), 参数的梯度为: ", x.grad)

通过②和③的对比,能看出 optimizer.zero_grad() 的作用是清除之前累积的梯度值。

5--参考

参考1

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
【Ctfer训练计划】——(三... 作者名:Demo不是emo  主页面链接:主页传送门 创作初心ÿ...