Off-policy vs on-policy(大师级解释,推荐)
创始人
2024-05-29 17:36:54
0

简单滴说,behavior policy and target policy 一样的,那就是on policy。

两者不一样的,就称作是off-policy。

其实这样的话,也可以把on-policy 看作是 off-policy的一种特殊形式。

image-20230304201651573

image-20230304201718456

因为你学习率那么小,为了实现对每个状态的探索,需要进行很多很多次抽样,效率比较低。一个有代表性的exploratory policy是均匀概率策略。也就是下图所示:

image-20230304202144053

下面我们区分一下 online/offline learning.

Another concept that may be confused with on-policy/off-policy is online/offline learning.

  • Online learning refers to the case where the value and policy can be updated once an experience sample is obtained.
  • Offline learning refers to the case that the update can only be done after all experience samples have been collected. For example, TD learning is online, whereas MC learning is offline.

An on-policy learning algorithm such as Sarsa must work online because the updated policy must be used to generate new experience samples.

An off-policy learning algorithm such as Q-learning can work either online or offline. It can either update the value and policy upon receiving an experience sample or update after collecting all experience samples.(注意了,虽然online learning版本的Q-learning 可以实时地更新策略,但是它的新策略并不用来生成样本。Q-learning 仅仅想要利用历史样本去进行动作价值的更新。)

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
【PdgCntEditor】解... 一、问题背景 大部分的图书对应的PDF,目录中的页码并非PDF中直接索引的页码...
修复 爱普生 EPSON L4... L4151 L4153 L4156 L4158 L4163 L4165 L4166 L4168 L4...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...