Learning Safety Constraints from Demonstrations with Unknown Rewards

要約

我々は、強化学習のための凸制約学習(CoCoRL)を提案します。これは、おそらく異なる報酬関数を持つ一連の安全なデモンストレーションから、制約付きマルコフ決定プロセス(CMDP)における共有制約を推論するための新しいアプローチです。
これまでの研究は、既知の報酬または完全に既知の環境ダイナミクスを使用したデモンストレーションに限定されていましたが、CoCoRL は、環境ダイナミクスの知識がなくても、さまざまな未知の報酬を使用したデモンストレーションから制約を学習できます。
CoCoRL は、デモンストレーションに基づいて凸型安全セットを構築します。これにより、最適ではない可能性がある (ただし安全な) デモンストレーションに対しても安全性が保証されます。
最適に近いデモンストレーションでは、CoCoRL はポリシーを後悔することなく真の安全なセットに収束します。
CoCoRL は、表形式の環境と複数の制約を伴う連続運転シミュレーションで評価されます。
CoCoRL は、安全な運転行動につながり、さまざまなタスクや環境に適用できる制約を学習します。
対照的に、逆強化学習 (IRL) に基づく代替手法は、パフォーマンスが低く、安全でないポリシーを学習することがよくあります。

要約(オリジナル)

We propose Convex Constraint Learning for Reinforcement Learning (CoCoRL), a novel approach for inferring shared constraints in a Constrained Markov Decision Process (CMDP) from a set of safe demonstrations with possibly different reward functions. While previous work is limited to demonstrations with known rewards or fully known environment dynamics, CoCoRL can learn constraints from demonstrations with different unknown rewards without knowledge of the environment dynamics. CoCoRL constructs a convex safe set based on demonstrations, which provably guarantees safety even for potentially sub-optimal (but safe) demonstrations. For near-optimal demonstrations, CoCoRL converges to the true safe set with no policy regret. We evaluate CoCoRL in tabular environments and a continuous driving simulation with multiple constraints. CoCoRL learns constraints that lead to safe driving behavior and that can be transferred to different tasks and environments. In contrast, alternative methods based on Inverse Reinforcement Learning (IRL) often exhibit poor performance and learn unsafe policies.

arxiv情報

著者 David Lindner,Xin Chen,Sebastian Tschiatschek,Katja Hofmann,Andreas Krause
発行日 2023-05-25 15:18:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク