Temporal-Difference Learning

Created2024-03-06|Updated2024-11-15|reinforcement_learning

|Post Views:

TD-预测

在蒙特卡洛方法中，对于 every-visit 的蒙特卡洛方法，可以给出一个递推的更新公式：

这个式子里面的必须在一幕结束之后才能计算出来，所以在一幕中学不到任何信息。

而的定义是：

如果使用来估算的话，那么有

带入有

注意到这里的式子里面已经没有东西需要在一个幕结束之后才能算出来，那么就得到了一个只需要一步的时序差分方法，称为或单步

算法如图所示：

TD-Error

定义 TD-error 为：

那么式可以写为

蒙特卡洛误差可以被写成 TD-Error 的形式：

Sarsa方法

前面给出了状态价值函数的更新公式，但是在实际做出决策的时候，动作价值函数是更为实用的选择，所以这里给出动作价值函数的更新公式：

这里的公式中同样不含有任何需要一个episode结束才能算出来的东西，所以可以动态更新。

On-policy的时序差分方法

在给定策略的情况下，可以根据公式来更新动作价值函数，并且更新来逼近最优的策略。算法如图：

Q-Learning —— Off-Policy 的时序差分方法

定义更新公式：

Q-Learning已经证明是不依赖初始策略，以概率为1去逼近最优策略的动作价值函数了，其算法如下图所示：

基于期望的Sarsa

基于期望的Sarsa的更新公式改成了

相比于Sarsa，基于期望的版本的更新更为平稳，但是计算更复杂一些。

最大化偏差和Double-Q Learning

在Q-Learning中，因为是取的期望，所以在每一次取最大化的过程中，会存在最大化偏差，导致某些很差的动作被选择的概率降低的速度很慢，那么就可以使用Double-QLearning，把所有情况的价值函数拆成两个部分分别更新来解决这个问题，算法如图：

TODO:弄清楚为什么Double的效果更好

Author: Eric Li

Link: https://www.ericli.vip/2024/03/06/RL/RLBook2020%20Learning/Temporal-Difference%20Learning/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Related Articles

从动作优势函数说起首先回顾一下动作优势函数，即：这里的优势表示的是在状态下面选择动作比选择平均动作的优势援引一张从知乎文章知乎-TRPO中的图： TRPO起始式的推导TRPO的起点是表达式这里就给出了在策略的基础上通过采样来计算累计回报的优势的计算方法下面来证明这个式子引入折扣访问频率定义那么式可以写成：最后一步是交换求和顺序，先对求和，剩下的就是定义了 Skill oneTRPO的第一个技巧是，每次更新的策略是临近的，换言之和的距离是不远的，因此可以直接近似替代，换个写法，那么式直接可以改写为：

Gymnasium Environment Configuration

强化学习环境——gymnasium配置注意，现在已经是2024年了，建议使用最新的gymnasium而不是gym 配置正确的python版本现在是2024年的3月20日，目前的gymnasium不支持python3.12，建议使用conda创建一个3.11的环境： 1conda create -n RL python=3.11 然后进入这个环境中： 1conda activate RL 如果使用的是Windows下的powershell，此时你的终端最前面没有显示例如： 1(RL) xxx@xxx.xxx.xxx.xxx:~ 而是： 1xxx@xxx.xxx.xxx.xxx:~ 的话，建议先运行： 1conda init 然后使用 1conda info 查看一下现在的环境是不是激活成功了安装gymnasium这里有两个坑，第一个是直接安装 gymnasium 只是装了个白板，里面啥也没有，需要安装的是 gymnasium[atari] 和 gymnasium[accept-rom-license]记住，两个都要装第二个坑是不知道为什么用conda...

Tmux 使用简介

tmux简介tmux是链接服务器跑服务的神器，可以在取消链接之后继续运行想要运行的程序使用流程安装tmux使用 1sudo apt install tmux 即可新建窗口1tmux new -s NAME 即可创建一个名为name的session，然后在里面运行你的指令即可然后就可以直接关掉这个链接了退出窗口如果想要退出当前的tmux session 可以先按下 ctrl + B 然后松开（这个时候没有变化是正常的）然后按下 D 就可以在不终止当前任务的情况下退出了。如果想直接终止这个任务，可以按下 ctrl + B + D 即不松手就行了。关闭session使用命令 1tmux ls 查看当前在运行的session，使用 1tmux kill-sesion -t NAME 关掉session就可以了恢复session使用命令 1tmux a -t NAME 可以恢复一个session

Dynamic Programming

递推表达式通过之前的定义可以得到一个递推版本的DP状态转移方程：这里的代表的是步，具体的含义是可以通过次 action 到达这个状态。所以上面的更新就是从步的价值函数去更新步的价值函数这里的并不是Bellman 方程，只是递推表达式，算法要求是到最后接近满足Bellman方程注意，这里的更新是和策略有关的，是在策略确定的情况下，通过更新的方式来确定真正的状态价值函数。具体的算法如图：在递推的过程中改进策略在迭代的过程中，如果已知策略的价值函数希望知道在某个状态下选择一个不同于的动作是否会带来改善，这种策略的价值为：如果上面的式子的值大于目前的状态价值函数那么就更新此时的策略为而由于所有的策略的状态价值函数存在偏序关系，也就是说存在 upper bound 那么就可以利用这一点证明，每次取贪心的策略即$$\pi’ = \mathop{argmax}a q_\pi(s,a) = \mathop{argmax}a \mathbb E[R{t + 1} + \gamma v_\pi (S{t +1}) | S_t...

Finite Markov Decision

马尔科夫模型中与环境交互的定义Agent做出动作后，Environment会反馈一个状态和一个奖励给到Agent，而Agent的目标还是最大化奖励之和有限马尔科夫决策过程的规定在有限马尔科夫决策过程中，所有的 states,actions,rewards 的集合都是有限的，而随机变量和被定义为仅仅依靠前面一次的state和action 的离散的概率分布，即只有上一次的状态和选择会影响当前的状态和奖励。转移函数定义转移函数 :转移函数是一个确定性的函数，即在同一个马尔科夫随机过程中，这个函数是不会发生变化的该函数有如下的性质：奖励期望的定义在MDP中，奖励的期望被定义为如何确定合理的奖励这里的奖励应该设置成为学习的额最终目标，例如如果是训练围棋，那么奖励应该设置为获得胜利，只有获得胜利的时候才会得到1的奖励，不能设置为吃子，这样训练的结果会变成一个以吃子为目标而不是以获胜为目标的算法。两种不同的任务类型可以分成 episode 的如果 agent 与 environment 的交互可以自然地分成多个 episode...

Introduction to reinforcement learning

Introduction强化学习的基本思想是从与环境的互动中学习，与其他学习方式最大的两个区别就是： trial-and-error search delayed reward 基本元素 policy reward signal value function a model of environment policy指agent每次在特定的时间下选择action的策略 reward signal指的是整个强化学习的目标，每一次做出决策之后，环境都会给予一个反馈，这里的reward signal是及时反馈 value function这里的value function是长期的反馈，是用于衡量一个决策的长期收益的。 value的定义是指未来获得的奖励(reward)的总和的期望。value是基于reward的，只有有reward才能衡量value Modelmodel是用来模拟环境变化的，是用来做计划的，强化学习算法可以分为model-based和model-free的