要約
制約付き強化学習は、報酬と制約の両方が考慮される安全性が重要な分野で有望な進歩を遂げています。
ただし、制約付き強化学習手法は、タスクのパフォーマンスと制約を満たす間の適切なバランスをとるという課題に直面しており、過度に保守的になったり、極小値に違反する制約に行き詰まったりする傾向があります。
この論文では、トレーニング中の報酬の最適化とコスト予算の適応を同時に可能にする敵対的制約ポリシー最適化 (ACPO) を提案します。
私たちのアプローチは、元の制約付き問題を 2 つの敵対的な段階に分割し、交互に解決するため、アルゴリズムのポリシー更新パフォーマンスは理論的に保証されます。
私たちは、安全体育館と四足歩行タスクで行われた実験を通じてこの方法を検証します。
結果は、私たちのアルゴリズムが一般的に使用されているベースラインと比較して優れたパフォーマンスを達成していることを示しています。
要約(オリジナル)
Constrained reinforcement learning has achieved promising progress in safety-critical fields where both rewards and constraints are considered. However, constrained reinforcement learning methods face challenges in striking the right balance between task performance and constraint satisfaction and it is prone for them to get stuck in over-conservative or constraint violating local minima. In this paper, we propose Adversarial Constrained Policy Optimization (ACPO), which enables simultaneous optimization of reward and the adaptation of cost budgets during training. Our approach divides original constrained problem into two adversarial stages that are solved alternately, and the policy update performance of our algorithm can be theoretically guaranteed. We validate our method through experiments conducted on Safety Gymnasium and quadruped locomotion tasks. Results demonstrate that our algorithm achieves better performances compared to commonly used baselines.
arxiv情報
著者 | Jianmina Ma,Jingtian Ji,Yue Gao |
発行日 | 2024-10-28 07:04:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google