要約
逆制約学習(ICL)は、安全な(すなわち、制約満足)デモンストレーションから制約を推測する問題です。
希望は、これらの推測された制約を下流で使用して、新しいタスクの安全なポリシーを検索し、潜在的に異なるダイナミクスの下で検索できることです。
私たちの論文では、ICLがどのような数学的エンティティが回復するかという問題を探ります。
やや驚くべきことに、理論と実際の両方で、ICLは、障害がすでに発生している状態のセットではなく、故障が避けられない状態のセットを回復することを示しています。
安全な制御の言語では、これは、障害セットではなく、後方に到達可能なチューブ(BRT)を回収することを意味します。
障害セットとは対照的に、BRTはデータ収集システムのダイナミクスに依存します。
回収された制約のダイナミクス条件の意味は、ポリシー検索のサンプル効率と学習制約の移転可能性の両方における意味を説明します。
要約(オリジナル)
Inverse Constraint Learning (ICL) is the problem of inferring constraints from safe (i.e., constraint-satisfying) demonstrations. The hope is that these inferred constraints can then be used downstream to search for safe policies for new tasks and, potentially, under different dynamics. Our paper explores the question of what mathematical entity ICL recovers. Somewhat surprisingly, we show that both in theory and in practice, ICL recovers the set of states where failure is inevitable, rather than the set of states where failure has already happened. In the language of safe control, this means we recover a backwards reachable tube (BRT) rather than a failure set. In contrast to the failure set, the BRT depends on the dynamics of the data collection system. We discuss the implications of the dynamics-conditionedness of the recovered constraint on both the sample-efficiency of policy search and the transferability of learned constraints.
arxiv情報
著者 | Mohamad Qadri,Gokul Swamy,Jonathan Francis,Michael Kaess,Andrea Bajcsy |
発行日 | 2025-01-26 17:54:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google