Sample-efficient Adversarial Imitation Learning

要約

報酬関数が事前に定義されていない逐次的な意思決定タスクでは、実証によって学習を行う模倣学習が研究され、発展しています。
ただし、模倣学習方法では、専門家の行動をうまく模倣するには、依然として多数の専門家のデモンストレーション サンプルが必要です。
サンプル効率を向上させるために、与えられたデータから膨大なトレーニング信号を生成できる自己教師あり表現学習を利用します。
本研究では、非画像制御タスクにおいて、多様な歪みに強く、時間的に予測可能な状態表現と行動表現を学習するための、自己教師あり表現ベースの敵対的模倣学習手法を提案する。
特に、表形式データに対する既存の自己教師あり学習手法と比較して、さまざまな歪みに対して堅牢な、状態およびアクション表現に対する異なる破損手法を提案します。
私たちは、サンプルの複雑さを減らして有益な特徴を多様化すると、模倣学習のパフォーマンスが大幅に向上することを理論的および経験的に観察しています。
提案された方法は、100 のエキスパートの状態とアクションのペアに限定された設定において、MuJoCo 上の既存の敵対的模倣学習方法と比較して 39% の相対的な改善を示しています。
さらに、さまざまな最適性を備えたデモンストレーションを使用して包括的なアブレーションと追加の実験を実施し、さまざまな要因についての洞察を提供します。

要約(オリジナル)

Imitation learning, in which learning is performed by demonstration, has been studied and advanced for sequential decision-making tasks in which a reward function is not predefined. However, imitation learning methods still require numerous expert demonstration samples to successfully imitate an expert’s behavior. To improve sample efficiency, we utilize self-supervised representation learning, which can generate vast training signals from the given data. In this study, we propose a self-supervised representation-based adversarial imitation learning method to learn state and action representations that are robust to diverse distortions and temporally predictive, on non-image control tasks. In particular, in comparison with existing self-supervised learning methods for tabular data, we propose a different corruption method for state and action representations that is robust to diverse distortions. We theoretically and empirically observe that making an informative feature manifold with less sample complexity significantly improves the performance of imitation learning. The proposed method shows a 39% relative improvement over existing adversarial imitation learning methods on MuJoCo in a setting limited to 100 expert state-action pairs. Moreover, we conduct comprehensive ablations and additional experiments using demonstrations with varying optimality to provide insights into a range of factors.

arxiv情報

著者 Dahuin Jung,Hyungyu Lee,Sungroh Yoon
発行日 2024-01-23 16:14:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク