要約
(深層) 強化学習で使用されるエクスペリエンス リプレイ (ER) は、オフポリシー アルゴリズムにのみ適用できると考えられています。
ただし、ER がオンポリシー アルゴリズムに適用されたケースもいくつかあり、オフポリシーであることが ER を適用するための十分な条件である可能性があることが示唆されています。
この論文は、より厳密な「経験再現条件」(ERC) を再考し、ERC を満たすように既存のアルゴリズムを変更する方法を提案します。
これを踏まえると、政策改善の不安定性が ERC における極めて重要な要因であると推測されます。
不安定要因は、計量学習の観点から、i) ネガティブなサンプルからの反発力、ii) 不適切な経験の再現として明らかになります。
したがって、対応する安定化トリックが導出されます。
その結果、提案された安定化トリックにより、ER がアドバンテージアクタークリティック、オンポリシーアルゴリズムに適用可能になることが数値シミュレーションを通じて確認されます。
さらに、その学習パフォーマンスは、最先端のオフポリシー アルゴリズムであるソフト アクター批評家の学習パフォーマンスに匹敵します。
要約(オリジナル)
Experience replay (ER) used in (deep) reinforcement learning is considered to be applicable only to off-policy algorithms. However, there have been some cases in which ER has been applied for on-policy algorithms, suggesting that off-policyness might be a sufficient condition for applying ER. This paper reconsiders more strict ‘experience replayable conditions’ (ERC) and proposes the way of modifying the existing algorithms to satisfy ERC. In light of this, it is postulated that the instability of policy improvements represents a pivotal factor in ERC. The instability factors are revealed from the viewpoint of metric learning as i) repulsive forces from negative samples and ii) replays of inappropriate experiences. Accordingly, the corresponding stabilization tricks are derived. As a result, it is confirmed through numerical simulations that the proposed stabilization tricks make ER applicable to an advantage actor-critic, an on-policy algorithm. Moreover, its learning performance is comparable to that of a soft actor-critic, a state-of-the-art off-policy algorithm.
arxiv情報
著者 | Taisuke Kobayashi |
発行日 | 2024-07-09 14:16:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google