RL面经

Value-based与Policy-based

  1. 目标不同

vb:最大化动作价值函数
pb:最大化每个epi的总回报

基于价值与基于策略的强化学习区别:

  1. 价值:通过学习价值函数指导策略
  2. 策略:直接学习对应的策略
  3. ac:价值+策略

重要度采样

首先需要明确,该方法是一种普世的方法,不仅用于RL。

核心思想是通过一个已知策略的分布情况,根据采样比,进而修正得到当前未知的策略分布情况。
IS

References

  1. [讀些東西,做點筆記] PPO & TRPO

策略梯度方法

  1. 基本思想

最大化状态价值来更新策略函数参数,即最大化目标函数
$J(\theta) = \mathbb{E}_S[V_\pi(s)]$,其中$\theta$为策略函数的参数.具体优化过程:

image-20230604225752515

  1. 优缺点

优点:

相对于Value Based的方法,基于策略梯度的强化学习方法的很明显的优势是它可以直接去学习Policy本身,这样学习速度会更快,并且更关键的是它可以用于连续动作空间的情况。

  • 更好的收敛性
  • 高维空间场景下,基于策略的方法要更高效
  • 能够学习到一些随机策略

缺点:

RL环境变化往往较大,导致Value的方差要比一般的DL数据大得多,学习率的选择会直接影响到策略的好坏(学习率需要针对调整),且差异会很大。

  • 方差大,受初始策略选择波动大
  • 策略评估效率低
  • 一般收敛到局部最优

解决办法:

TRPO与PPO,通过调整新旧策略,为新旧策略增加约束,保证策略的更新是在可控范围之内的。

  1. 策略梯度

选定合适的策略目标函数,对策略目标函数求梯度上升至局部最大值即可;

目标函数:
$$
J(\theta)
= \sum_{s \in \mathcal{S}} d^\pi(s) V^\pi(s)
= \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} \pi_\theta(a \vert s) Q^\pi(s, a)
$$

其中$d^{\pi}(s)=\lim _{t\to \infty} P(s_t=s|s_0,\pi_\theta)$是平稳分布。

在具体更新过程中,

image-20230810125638794

前一项控制更新方向,后一项控制更新幅度,因此就会朝着高回报的轨迹更新。

References

  1. 深入理解TRPO和PPO算法
  2. 《强化学习》第七讲 策略梯度
  3. For: 策略梯度算法专题

MC、TD与DP

Same:

References

  1. 强化学习之遇到的一些面试问题

贝尔曼方程

最优贝尔曼方程

image-20230712163055793

贝尔曼期望方程

img

References

1.面试篇——强化学习高频面试题整理