大模型入门（1）——“人人都能看懂的RL-PPO理论知识”

Posted 2025-07-21 Updated 2025-07- 21

By Administrator

64~82 min read

在攻读第一篇文章“GPG-A Simple and Strong Reinforcement Learning Baseline for Model Reasoning”后发现自己在Method的策略梯度（PG）公式没看懂，所以先看看这一篇博客入门PPO和LLM的相关知识。

一、参考教程

Sutton的《强化学习导论》：https://rl.qiwihui.com/zh-cn/latest/notation.html

（主要要了解价值函数，了解什么是value-based,policy-based,actor-based）

蘑菇书EasyRL：https://datawhalechina.github.io/easy-rl/#/chapter2/chapter2

策略分为两种：确定性策略和随机性策略。一般用θ表示策略的参数。

a_t= μ_θ(s_t)

智能体在看到状态s_t的情况下，确定地执行a_t

a_t~ π_θ(.|s_t)

智能体在看到状态s_t的情况下，其可能执行的动作服从概率分布π_θ(.|s_t)。也就是此时智能体是以一定概率执行某个动作a_t

奖励由当前状态、已经执行的行动和下一步的状态共同决定。

r_t = R(s_t,a_t,s_t+1)

T步累积奖励等于一条运动轨迹/一个回合/一个rollout后的单步奖励的累加

（敲不了复杂数学公式的屑博客）

智能体和环境做一系列/一回合交互后得到的state、action和reward的序列，所以运动轨迹也被称为episodes或rolloutes，这里假设智能体与环境交互了T次：

s₀是初始时智能体所处的状态，它只和环境有关。假设一个环境中的状态服从分布ρ₀，则有s₀~ρ₀(.)

当智能体在某个s_t下采取动作a_t时，它转移到某个状态s_t+1可以说确定的，也可以是随机的：
- 确定的状态转移：s_t+1=f(s_t,a_t)，表示的含义是当智能体在某个s_t下采取某个动作a_t时，环境的状态确定性地转移到s_t+1
- 随机的状态转移：s_t+1~P(.|s_t,a_t)

接下来的介绍中，假设环境采用的是随机状态转移

强化学习的优化过程可以总结为：

整个优化过程由以上两点交替进行，最终收敛到最优策略π*和能准确评估它的价值函数V_π*。

【问题】：这是否意味着强化学习过程中一定存在π和V_π两个实体呢？例如，这是否意味着我们一定要训练两个神经网络，分别表示策略和价值评估？

答案是否定的：

只有一个价值实体V_π，因为它的输入和状态与动作相关。这意味着只要我们知道状态空间S和动作空间A，V_π就可以作用到这两个空间上帮助我们衡量哪个状态/动作的价值最大，进而隐式地承担起制定策略的角色。这种方式被称为value-based。
只有一个策略实体π，在对策略的价值评估中，我们可以让策略和环境交互多次，采样足够多的轨迹数据，用这些数据去对策略的价值做评估，然后再据此决定策略的迭代方向。这种方式被称为policy-based
同时有价值实体V_π和策略实体π，然后按上面的过程进行迭代，这种方法被叫做actor-critic，其中actor表示策略，critic表示价值。

policy-based下的强化学习优化目标为：