Handling Cost and Constraints with Off-Policy Deep Reinforcement Learning

要約

トレーニング全体でデータを再利用することにより、オフポリシーの深層強化学習アルゴリズムは、オンポリシーのアプローチと比較してサンプル効率を向上させます。
連続アクション空間の場合、オフポリシー学習の最も一般的な方法には、選択されたデータのバッチに対して学習された状態アクション ($Q$) 値関数が最大化されるポリシー改善ステップが含まれます。
これらの更新は、関連する $Q$ 値の過大評価に対処するために、多くの場合、正規化と組み合わせられます。
安全性を考慮して、「混合符号」報酬関数を持つ環境でこの戦略を再考します。
つまり、独立した正の (インセンティブ) 項と負の (コスト) 項を含む報酬関数を使用します。
この設定は実際のアプリケーションでは一般的であり、コスト条件の制約の有無にかかわらず対処できます。
このような環境では、関数近似と、ポリシー更新で $Q$ を最大化する項の組み合わせに問題があることがわかりました。これは、価値推定における系統的誤差が、競合する項からの寄与に非対称的に影響を与えるためです。
その結果、インセンティブまたはコストが過度に強調され、学習が大幅に制限される可能性があります。
この問題に対する 2 つの解決策を検討します。
まず、以前の研究と一致して、$Q$ とポリシー ネットワークの定期的なリセットを使用して、値の推定誤差を減らし、この設定での学習を改善できることがわかりました。
第二に、ポリシー更新で $Q$ を明示的に最大化しない、制約なし学習と制約付き学習の両方に対する新しいオフポリシー アクタークリティカル手法を定式化します。
この 2 番目のアプローチは、混合符号報酬を持つ連続アクション空間に適用すると、リセットによって強化された最先端の手法よりも一貫して大幅に優れていることがわかりました。
さらに、私たちのアプローチは、一般的な手法と全体的に競合し、混合符号報酬を持たない頻繁に研究される制御問題に対してより確実に有能なエージェントを生成することもわかりました。

要約(オリジナル)

By reusing data throughout training, off-policy deep reinforcement learning algorithms offer improved sample efficiency relative to on-policy approaches. For continuous action spaces, the most popular methods for off-policy learning include policy improvement steps where a learned state-action ($Q$) value function is maximized over selected batches of data. These updates are often paired with regularization to combat associated overestimation of $Q$ values. With an eye toward safety, we revisit this strategy in environments with ‘mixed-sign’ reward functions; that is, with reward functions that include independent positive (incentive) and negative (cost) terms. This setting is common in real-world applications, and may be addressed with or without constraints on the cost terms. We find the combination of function approximation and a term that maximizes $Q$ in the policy update to be problematic in such environments, because systematic errors in value estimation impact the contributions from the competing terms asymmetrically. This results in overemphasis of either incentives or costs and may severely limit learning. We explore two remedies to this issue. First, consistent with prior work, we find that periodic resetting of $Q$ and policy networks can be used to reduce value estimation error and improve learning in this setting. Second, we formulate novel off-policy actor-critic methods for both unconstrained and constrained learning that do not explicitly maximize $Q$ in the policy update. We find that this second approach, when applied to continuous action spaces with mixed-sign rewards, consistently and significantly outperforms state-of-the-art methods augmented by resetting. We further find that our approach produces agents that are both competitive with popular methods overall and more reliably competent on frequently-studied control problems that do not have mixed-sign rewards.

arxiv情報

著者 Jared Markowitz,Jesse Silverberg,Gary Collins
発行日 2023-11-30 16:31:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク