Proximal Policy Optimization Algorithms

基本信息

标题:Proximal Policy Optimization Algorithms
链接:Proximal Policy Optimization Algorithms
30341引用量

研究背景动机

在过去强化学习的研究中,主要的方法有深度Q学习、“香草”策略梯度方法、TRPO。
对于深度Q学习而言,主要的缺点在于不能在一些简单问题上表现良好(在离散动作空间表现好,但是没有被证明在连续控制测试中表现良好),也相对难以理解。

对于“香草”策略梯度方法,数据效率和鲁棒性都较差。

对于TRPO,虽然TRPO的数据效率和性能可靠 ,但它相对复杂。它与包含噪声(如dropout)或参数共享(在策略和价值函数之间)的神经网络架构不兼容

当时强化学习领域缺乏一种可扩展、数据高效且鲁棒的算法。

PPO的目标就是在只使用一阶优化的前提下,达到TRPO的数据效率和可靠性能 ,从而创造出一个更简单、更通用、性能更好的新方法

核心方法

实验设计

结论总结