Proximal Policy Optimization Algorithms
基本信息
标题:Proximal Policy Optimization Algorithms
链接:Proximal Policy Optimization Algorithms
30341引用量
研究背景动机
在过去强化学习的研究中,主要的方法有深度Q学习、“香草”策略梯度方法、TRPO。
对于深度Q学习而言,主要的缺点在于不能在一些简单问题上表现良好(在离散动作空间表现好,但是没有被证明在连续控制测试中表现良好),也相对难以理解。
对于“香草”策略梯度方法,数据效率和鲁棒性都较差。
对于TRPO,虽然TRPO的数据效率和性能可靠 ,但它相对复杂。它与包含噪声(如dropout)或参数共享(在策略和价值函数之间)的神经网络架构不兼容
当时强化学习领域缺乏一种可扩展、数据高效且鲁棒的算法。
PPO的目标就是在只使用一阶优化的前提下,达到TRPO的数据效率和可靠性能 ,从而创造出一个更简单、更通用、性能更好的新方法