Confidence Aware Inverse Constrained Reinforcement Learning

要約

現実世界の問題に対する解決策を考え出す際、人間は暗黙のうちに、完全に指定するには多すぎて複雑な制約に従うことになります。
ただし、強化学習 (RL) エージェントがこれらの設定で適切な最適なポリシーを学習するには、これらの制約が必要です。
逆制約強化学習 (ICRL) の分野はこの問題に対処し、オフラインで収集された専門家のデモンストレーションから制約を推定することを目的としたアルゴリズムを提供します。
実務家は、これらの制約の使用を決定する前に、推定された制約の信頼度の尺度を知ることを好みます。これにより、望ましい信頼レベルを満たす制約のみを使用できるようになります。
しかし、従来の研究では、ユーザーが推論された制約に対して望ましいレベルの信頼を提供することはできませんでした。
この研究は、一連の専門家のデモンストレーションを使用して信頼レベルを取得し、望ましい信頼レベルを持つ真の基礎となる制約と少なくとも同じ制約を持つ制約を出力できる、原則に基づいた ICRL 手法を提供します。
さらに、以前の方法とは異なり、この方法では、ユーザーは、エキスパート軌跡の数が望ましい信頼レベルで制約を学習するのに不十分であるかどうかを知ることができるため、必要に応じてより多くのエキスパート軌跡を収集して、望ましい信頼レベルで制約を同時に学習できます。
そして、望ましいレベルのパフォーマンスを達成するポリシー。

要約(オリジナル)

In coming up with solutions to real-world problems, humans implicitly adhere to constraints that are too numerous and complex to be specified completely. However, reinforcement learning (RL) agents need these constraints to learn the correct optimal policy in these settings. The field of Inverse Constraint Reinforcement Learning (ICRL) deals with this problem and provides algorithms that aim to estimate the constraints from expert demonstrations collected offline. Practitioners prefer to know a measure of confidence in the estimated constraints, before deciding to use these constraints, which allows them to only use the constraints that satisfy a desired level of confidence. However, prior works do not allow users to provide the desired level of confidence for the inferred constraints. This work provides a principled ICRL method that can take a confidence level with a set of expert demonstrations and outputs a constraint that is at least as constraining as the true underlying constraint with the desired level of confidence. Further, unlike previous methods, this method allows a user to know if the number of expert trajectories is insufficient to learn a constraint with a desired level of confidence, and therefore collect more expert trajectories as required to simultaneously learn constraints with the desired level of confidence and a policy that achieves the desired level of performance.

arxiv情報

著者 Sriram Ganapathi Subramanian,Guiliang Liu,Mohammed Elmahgiubi,Kasra Rezaee,Pascal Poupart
発行日 2024-06-24 16:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク