要約
この論文では、状態の制約を満たすことが保証されたロボット ポリシーを学習しようとします。
制約を満たすことを促進するために、既存の RL アルゴリズムは通常、制約付きマルコフ決定プロセスに依存し、報酬形成を通じて制約違反を阻止します。
ただし、このようなソフトな制約では、検証可能な安全性の保証を提供することはできません。
このギャップに対処するために、我々は、ブラックボックス環境を備えた閉ループでアフィンハード制約を強制するように明示的に設計された新しい RL アルゴリズムである POLICEd RL を提案します。
私たちの重要な洞察は、学習されたポリシーを安全でないセットの周りでアフィンにすることを強制し、このアフィン領域を反発バッファとして使用して、軌道が制約に違反するのを防ぐことです。
私たちはそのようなポリシーが存在することを証明し、制約を満たすことを保証します。
私たちが提案するフレームワークは、連続および離散の状態およびアクション空間を持つ両方のシステムに適用でき、RL トレーニング アルゴリズムの選択に依存しません。
私たちの結果は、POLICEd RL が既存の手法を大幅に上回りながら、ロボットタスクに厳しい制約を適用できる能力を実証しています。
要約(オリジナル)
In this paper, we seek to learn a robot policy guaranteed to satisfy state constraints. To encourage constraint satisfaction, existing RL algorithms typically rely on Constrained Markov Decision Processes and discourage constraint violations through reward shaping. However, such soft constraints cannot offer verifiable safety guarantees. To address this gap, we propose POLICEd RL, a novel RL algorithm explicitly designed to enforce affine hard constraints in closed-loop with a black-box environment. Our key insight is to force the learned policy to be affine around the unsafe set and use this affine region as a repulsive buffer to prevent trajectories from violating the constraint. We prove that such policies exist and guarantee constraint satisfaction. Our proposed framework is applicable to both systems with continuous and discrete state and action spaces and is agnostic to the choice of the RL training algorithm. Our results demonstrate the capacity of POLICEd RL to enforce hard constraints in robotic tasks while significantly outperforming existing methods.
arxiv情報
著者 | Jean-Baptiste Bouvier,Kartik Nagpal,Negar Mehr |
発行日 | 2024-06-03 22:45:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google