要約
観察からの模倣学習(ILfO)は、学習者が観察データのみを用いて、実証された行動を直接指導されることなく、専門家の行動を模倣しようとする設定である。本論文では、学習者と専門家の状態軌跡間のワッサーシュタイン距離に基づいて報酬を生成するILのための最適輸送の利用を再検討する。学習モデルや敵対的学習を必要とせずに報酬関数を生成するために、既存の手法を単純化できることを示す。他の多くの最先端手法とは異なり、我々のアプローチはあらゆるRLアルゴリズムと統合可能であり、ILfOに従順である。この単純な手法の有効性を様々な連続制御タスクで実証し、IlfO設定において最先端技術を凌駕し、アクションを伴わない単一のエキスパート軌道のみを観測した場合でも、様々な評価領域においてエキスパートレベルの性能を達成することを見出す。
要約(オリジナル)
Imitation Learning from Observation (ILfO) is a setting in which a learner tries to imitate the behavior of an expert, using only observational data and without the direct guidance of demonstrated actions. In this paper, we re-examine the use of optimal transport for IL, in which a reward is generated based on the Wasserstein distance between the state trajectories of the learner and expert. We show that existing methods can be simplified to generate a reward function without requiring learned models or adversarial learning. Unlike many other state-of-the-art methods, our approach can be integrated with any RL algorithm, and is amenable to ILfO. We demonstrate the effectiveness of this simple approach on a variety of continuous control tasks and find that it surpasses the state of the art in the IlfO setting, achieving expert-level performance across a range of evaluation domains even when observing only a single expert trajectory without actions.
arxiv情報
著者 | Wei-Di Chang,Scott Fujimoto,David Meger,Gregory Dudek |
発行日 | 2023-10-02 20:53:20+00:00 |
arxivサイト | arxiv_id(pdf) |