RL面经

Posted on 2023-12-13 In 学习笔记

Value-based与Policy-based
重要度采样
- References
策略梯度方法
- References
MC、TD与DP
- References
贝尔曼方程
References

Value-based与Policy-based

目标不同

vb：最大化动作价值函数
pb：最大化每个epi的总回报

基于价值与基于策略的强化学习区别：

价值：通过学习价值函数指导策略
策略：直接学习对应的策略
ac：价值+策略

重要度采样

首先需要明确，该方法是一种普世的方法，不仅用于RL。

核心思想是通过一个已知策略的分布情况，根据采样比，进而修正得到当前未知的策略分布情况。

References

[讀些東西，做點筆記] PPO & TRPO

策略梯度方法

基本思想

最大化状态价值来更新策略函数参数，即最大化目标函数
$J(\theta) = \mathbb{E}_S[V_\pi(s)]$,其中$\theta$为策略函数的参数.具体优化过程：

优缺点

优点：

相对于Value Based的方法，基于策略梯度的强化学习方法的很明显的优势是它可以直接去学习Policy本身，这样学习速度会更快，并且更关键的是它可以用于连续动作空间的情况。

更好的收敛性
高维空间场景下，基于策略的方法要更高效
能够学习到一些随机策略

缺点：

RL环境变化往往较大，导致Value的方差要比一般的DL数据大得多，学习率的选择会直接影响到策略的好坏(学习率需要针对调整)，且差异会很大。

方差大，受初始策略选择波动大
策略评估效率低
一般收敛到局部最优

解决办法：

TRPO与PPO，通过调整新旧策略，为新旧策略增加约束，保证策略的更新是在可控范围之内的。

策略梯度

选定合适的策略目标函数，对策略目标函数求梯度上升至局部最大值即可；

目标函数：
$$
J(\theta)
= \sum_{s \in \mathcal{S}} d^\pi(s) V^\pi(s)
= \sum_{s \in \mathcal{S}} d^\pi(s) \sum_{a \in \mathcal{A}} \pi_\theta(a \vert s) Q^\pi(s, a)
$$

其中$d^{\pi}(s)=\lim _{t\to \infty} P(s_t=s|s_0,\pi_\theta)$是平稳分布。

在具体更新过程中，

前一项控制更新方向，后一项控制更新幅度，因此就会朝着高回报的轨迹更新。

References

MC、TD与DP

Same：

References

强化学习之遇到的一些面试问题

贝尔曼方程

最优贝尔曼方程

贝尔曼期望方程

References

1.面试篇——强化学习高频面试题整理