要約
この論文では、模倣学習 (IL) に広く適用可能な一般的アルゴリズムである \textbf{C}ont\textbf{E}xtual \textbf{I}mitation \textbf{L}earning~(CEIL) を紹介します。
後知恵情報マッチングの定式化に触発され、後知恵埋め込み関数を後知恵埋め込みを使用したコンテキスト ポリシーとともに明示的に学習することで CEIL を導出します。
IL の専門家マッチング目標を達成するために、専門家の行動を模倣する方向にコンテキスト ポリシーにバイアスがかかるようにコンテキスト変数を最適化することを提唱します。
CEIL は、典型的なデモンストレーションからの学習 (LfD) 設定を超えて、次のような複数の設定に効果的に適用できるジェネラリストです: 1) ~ 観察からの学習 (LfO)、2) ~ オフライン IL、3) ~ クロスドメイン IL (不一致)
専門家)、4)ワンショット IL 設定。
経験的に、人気のある MuJoCo タスク (オンライン) と D4RL データセット (オフライン) で CEIL を評価します。
以前の最先端のベースラインと比較して、CEIL はほとんどのオンライン IL タスクでサンプル効率が高く、オフライン タスクでは優れたまたは競争力のあるパフォーマンスを達成することを示しています。
要約(オリジナル)
In this paper, we present \textbf{C}ont\textbf{E}xtual \textbf{I}mitation \textbf{L}earning~(CEIL), a general and broadly applicable algorithm for imitation learning (IL). Inspired by the formulation of hindsight information matching, we derive CEIL by explicitly learning a hindsight embedding function together with a contextual policy using the hindsight embeddings. To achieve the expert matching objective for IL, we advocate for optimizing a contextual variable such that it biases the contextual policy towards mimicking expert behaviors. Beyond the typical learning from demonstrations (LfD) setting, CEIL is a generalist that can be effectively applied to multiple settings including: 1)~learning from observations (LfO), 2)~offline IL, 3)~cross-domain IL (mismatched experts), and 4) one-shot IL settings. Empirically, we evaluate CEIL on the popular MuJoCo tasks (online) and the D4RL dataset (offline). Compared to prior state-of-the-art baselines, we show that CEIL is more sample-efficient in most online IL tasks and achieves better or competitive performances in offline tasks.
arxiv情報
著者 | Jinxin Liu,Li He,Yachen Kang,Zifeng Zhuang,Donglin Wang,Huazhe Xu |
発行日 | 2023-10-26 17:27:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google