Inverse Constraint Learning and Generalization by Transferable Reward Decomposition

要約

我々は、デモンストレーションから制約を回復し、新しいシナリオで制約されたスキルを自律的に再現する逆制約学習 (ICL) の問題を提示します。
ただし、ICL には不適切な性質があり、デモンストレーションからの制約の不正確な推論につながります。
これを解明するために、タスク指向の報酬とタスクに依存しない制約を共同で推論する転移可能な制約学習 (TCL) アルゴリズムを導入し、学習したスキルの一般化を可能にします。
私たちの手法TCLは、全体の報酬をタスク報酬とその残差をソフト制約として加法的に分解し、タスク指向のポリシーと制約指向のポリシー間のポリシーの相違を最大化して、譲渡可能な制約を取得します。
3 つのシミュレートされた環境で私たちの手法と 5 つのベースラインを評価したところ、TCL が最先端の IRL および ICL アルゴリズムを上回っており、次善のアプローチと比較して、正確な分解で最大 $72\%$ 高いタスク成功率を達成していることがわかりました。
斬新なシナリオ。
さらに、2 つの現実世界のロボット タスクに対する TCL の堅牢性を実証します。

要約(オリジナル)

We present the problem of inverse constraint learning (ICL), which recovers constraints from demonstrations to autonomously reproduce constrained skills in new scenarios. However, ICL suffers from an ill-posed nature, leading to inaccurate inference of constraints from demonstrations. To figure it out, we introduce a transferable constraint learning (TCL) algorithm that jointly infers a task-oriented reward and a task-agnostic constraint, enabling the generalization of learned skills. Our method TCL additively decomposes the overall reward into a task reward and its residual as soft constraints, maximizing policy divergence between task- and constraint-oriented policies to obtain a transferable constraint. Evaluating our method and five baselines in three simulated environments, we show TCL outperforms state-of-the-art IRL and ICL algorithms, achieving up to a $72\%$ higher task-success rates with accurate decomposition compared to the next best approach in novel scenarios. Further, we demonstrate the robustness of TCL on two real-world robotic tasks.

arxiv情報

著者 Jaehwi Jang,Minjae Song,Daehyung Park
発行日 2023-12-08 14:11:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク