Policy Gradient Methods

Created2024-03-13|Updated2025-06-05|reinforcement_learning

|Post Views:

Background

本书前面的部分主要讲的都是学习价值函数的方法，这里提出一种直接学习策略的方法，这里把策略记作一个带有参数的，即

Advantage

优点之一是可以学习一个确定性的算法而不像 - greedy 的策略那样每次都有一个较小的概率选择非最优解。同时，基于价值函数学习的方法里面如何选择初始值和如何进行递降都是需要考虑的问题。

Policy Gradient

在直接学习策略的时候，正确地更新参数是十分重要的，所以需要想办法求出评估量对于的梯度，此处定义：

对于分幕式任务，在经过推导（RLBook2020 P325）后，得到：

这里虽然只找出了正比关系，但是在梯度下降的时候，只关注梯度的方向，并不关心梯度真正的值是多少

Monte Carlo Policy Gradient

根据上面的式子，写成期望的形式：

那么就可以得出梯度下降的公式：

其中是对于真实动作价值函数的逼近。上面的公式成为 all-actions methods 因为它包含了该状态所有可能的动作下面介绍另一种强化学习版本的。

这里的是依据策略在时刻采样出一个动作，第一个等号相等的原因是因为，这里求的是期望，在采样出一个动作之后，应该是求期望的期望，就是期望。

所以这里的更新公式就变成了：

这里还有一个小 trick 因为我们知道对数函数的梯度是自己的倒数，即所以上面的那个式子可以写成：

这样可以得到一个算法：

# Reinforce with Baseline
首先，和前面的 Tabular Solution Methods 里面使用的技巧是一样的，由于

所以可以改变式为：

这样不会改变梯度的方向，这个时候，我们选择使用来占掉的位置，同时更新价值函数和策略，算法如图：

# Actor–Critic Methods
这个方法和前面的方法非常类似，只是这个方法不需要等到整个Episode运行结束再进行更新，这两者之间的差别和TD和蒙特卡洛方法很类似，即：

Author: Eric Li

Link: https://www.ericli.vip/2024/03/13/RL/RLBook2020%20Learning/Policy%20Gradient%20Methods/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Related Articles

从动作优势函数说起首先回顾一下动作优势函数，即：这里的优势表示的是在状态下面选择动作比选择平均动作的优势援引一张从知乎文章知乎-TRPO中的图： TRPO起始式的推导TRPO的起点是表达式这里就给出了在策略的基础上通过采样来计算累计回报的优势的计算方法下面来证明这个式子引入折扣访问频率定义那么式可以写成：最后一步是交换求和顺序，先对求和，剩下的就是定义了 Skill oneTRPO的第一个技巧是，每次更新的策略是临近的，换言之和的距离是不远的，因此可以直接近似替代，换个写法，那么式直接可以改写为：

Gymnasium Environment Configuration

强化学习环境——gymnasium配置注意，现在已经是2024年了，建议使用最新的gymnasium而不是gym 配置正确的python版本现在是2024年的3月20日，目前的gymnasium不支持python3.12，建议使用conda创建一个3.11的环境： 1conda create -n RL python=3.11 然后进入这个环境中： 1conda activate RL 如果使用的是Windows下的powershell，此时你的终端最前面没有显示例如： 1(RL) xxx@xxx.xxx.xxx.xxx:~ 而是： 1xxx@xxx.xxx.xxx.xxx:~ 的话，建议先运行： 1conda init 然后使用 1conda info 查看一下现在的环境是不是激活成功了安装gymnasium这里有两个坑，第一个是直接安装 gymnasium 只是装了个白板，里面啥也没有，需要安装的是 gymnasium[atari] 和 gymnasium[accept-rom-license]记住，两个都要装第二个坑是不知道为什么用conda...

Tmux 使用简介

tmux简介tmux是链接服务器跑服务的神器，可以在取消链接之后继续运行想要运行的程序使用流程安装tmux使用 1sudo apt install tmux 即可新建窗口1tmux new -s NAME 即可创建一个名为name的session，然后在里面运行你的指令即可然后就可以直接关掉这个链接了退出窗口如果想要退出当前的tmux session 可以先按下 ctrl + B 然后松开（这个时候没有变化是正常的）然后按下 D 就可以在不终止当前任务的情况下退出了。如果想直接终止这个任务，可以按下 ctrl + B + D 即不松手就行了。关闭session使用命令 1tmux ls 查看当前在运行的session，使用 1tmux kill-sesion -t NAME 关掉session就可以了恢复session使用命令 1tmux a -t NAME 可以恢复一个session

Dynamic Programming

递推表达式通过之前的定义可以得到一个递推版本的DP状态转移方程：这里的代表的是步，具体的含义是可以通过次 action 到达这个状态。所以上面的更新就是从步的价值函数去更新步的价值函数这里的并不是Bellman 方程，只是递推表达式，算法要求是到最后接近满足Bellman方程注意，这里的更新是和策略有关的，是在策略确定的情况下，通过更新的方式来确定真正的状态价值函数。具体的算法如图：在递推的过程中改进策略在迭代的过程中，如果已知策略的价值函数希望知道在某个状态下选择一个不同于的动作是否会带来改善，这种策略的价值为：如果上面的式子的值大于目前的状态价值函数那么就更新此时的策略为而由于所有的策略的状态价值函数存在偏序关系，也就是说存在 upper bound 那么就可以利用这一点证明，每次取贪心的策略即$$\pi’ = \mathop{argmax}a q_\pi(s,a) = \mathop{argmax}a \mathbb E[R{t + 1} + \gamma v_\pi (S{t +1}) | S_t...

Finite Markov Decision

马尔科夫模型中与环境交互的定义Agent做出动作后，Environment会反馈一个状态和一个奖励给到Agent，而Agent的目标还是最大化奖励之和有限马尔科夫决策过程的规定在有限马尔科夫决策过程中，所有的 states,actions,rewards 的集合都是有限的，而随机变量和被定义为仅仅依靠前面一次的state和action 的离散的概率分布，即只有上一次的状态和选择会影响当前的状态和奖励。转移函数定义转移函数 :转移函数是一个确定性的函数，即在同一个马尔科夫随机过程中，这个函数是不会发生变化的该函数有如下的性质：奖励期望的定义在MDP中，奖励的期望被定义为如何确定合理的奖励这里的奖励应该设置成为学习的额最终目标，例如如果是训练围棋，那么奖励应该设置为获得胜利，只有获得胜利的时候才会得到1的奖励，不能设置为吃子，这样训练的结果会变成一个以吃子为目标而不是以获胜为目标的算法。两种不同的任务类型可以分成 episode 的如果 agent 与 environment 的交互可以自然地分成多个 episode...

Introduction to reinforcement learning

Introduction强化学习的基本思想是从与环境的互动中学习，与其他学习方式最大的两个区别就是： trial-and-error search delayed reward 基本元素 policy reward signal value function a model of environment policy指agent每次在特定的时间下选择action的策略 reward signal指的是整个强化学习的目标，每一次做出决策之后，环境都会给予一个反馈，这里的reward signal是及时反馈 value function这里的value function是长期的反馈，是用于衡量一个决策的长期收益的。 value的定义是指未来获得的奖励(reward)的总和的期望。value是基于reward的，只有有reward才能衡量value Modelmodel是用来模拟环境变化的，是用来做计划的，强化学习算法可以分为model-based和model-free的