Proximal Policy Optimization Algorithms

Posted on 2025-09-30 In Intensive Reading of Academic Papers

标题：Proximal Policy Optimization Algorithms
链接：Proximal Policy Optimization Algorithms
30341引用量

在过去强化学习的研究中，主要的方法有深度Q学习、“香草”策略梯度方法、TRPO。
对于深度Q学习而言，主要的缺点在于不能在一些简单问题上表现良好（在离散动作空间表现好，但是没有被证明在连续控制测试中表现良好），也相对难以理解。

对于“香草”策略梯度方法，数据效率和鲁棒性都较差。

对于TRPO，虽然TRPO的数据效率和性能可靠，但它相对复杂。它与包含噪声（如dropout）或参数共享（在策略和价值函数之间）的神经网络架构不兼容

当时强化学习领域缺乏一种可扩展、数据高效且鲁棒的算法。

PPO的目标就是在只使用一阶优化的前提下，达到TRPO的数据效率和可靠性能，从而创造出一个更简单、更通用、性能更好的新方法