要約
ポリシーベースの強化学習アルゴリズムは、さまざまな分野で広く使用されています。
その中で、TRPO や PPO などの主流のポリシー最適化アルゴリズムでは、ポリシーの反復に重要度サンプリングが導入されており、これにより履歴データの再利用が可能になります。
ただし、これにより代理目的の分散が大きくなる可能性があり、アルゴリズムの安定性と収束に間接的に影響します。
この論文では、まず代理目的の分散の上限を導出しました。この上限は、代理目的の増加に伴って二次関数的に増加する可能性があります。
次に、重要度サンプリングによって引き起こされる代理目的分散の過度の増加を回避するためのドロップアウト手法を提案しました。
次に、主流のポリシー最適化手法に適用できる一般的な強化学習フレームワークを導入し、ドロップアウト手法を PPO アルゴリズムに適用して D-PPO バリアントを取得しました。
最後に、Atari 2600 環境で D-PPO と PPO アルゴリズムの比較実験を行いました。結果は、D-PPO が PPO と比較して大幅なパフォーマンス向上を達成し、トレーニング中の代理目標分散の過剰な増加を効果的に制限したことを示しています。
要約(オリジナル)
Policy-based reinforcement learning algorithms are widely used in various fields. Among them, mainstream policy optimization algorithms such as TRPO and PPO introduce importance sampling into policy iteration, which allows the reuse of historical data. However, this can also lead to high variance of the surrogate objective and indirectly affects the stability and convergence of the algorithm. In this paper, we first derived an upper bound of the surrogate objective variance, which can grow quadratically with the increase of the surrogate objective. Next, we proposed a dropout technique to avoid the excessive increase of the surrogate objective variance caused by importance sampling. Then, we introduced a general reinforcement learning framework applicable to mainstream policy optimization methods, and applied the dropout technique to the PPO algorithm to obtain the D-PPO variant. Finally, we conduct comparative experiments between D-PPO and PPO algorithms in the Atari 2600 environment, results show that D-PPO achieved significant performance improvements compared to PPO, and effectively limited the excessive increase of the surrogate objective variance during training.
arxiv情報
著者 | Zhengpeng Xie,Changdong Yu,Weizheng Qiao |
発行日 | 2023-11-01 15:02:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google